Benchmark Results - ScanNet Benchmark

This table lists the benchmark results for the ScanNet200 3D semantic label scenario.

Method	avg iou	head iou	common iou	tail iou	wall	chair	floor	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

DITR	0.449 1	0.629 1	0.392 1	0.289 1	0.851 2	0.727 1	0.969 4	0.600 1	0.741 2	0.805 1	0.519 1	0.480 2	0.636 1	0.014 10	0.867 1	0.680 1	0.849 1	0.318 3	0.753 2	0.982 2	0.508 11	0.871 6	0.934 2	0.482 1	0.596 10	0.551 1	0.804 4	0.508 5	0.729 1	0.718 2	0.417 4	0.886 1	0.664 3	0.000 16	0.500 2	0.698 1	0.000 1	0.913 1	0.901 3	0.766 7	0.113 11	0.000 7	0.617 4	0.168 1	0.650 1	0.477 1	0.826 1	0.962 1	0.348 2	0.300 1	0.947 1	0.776 2	0.160 2	0.889 1	0.651 5	0.720 2	0.700 1	0.728 3	0.317 1	0.000 3	0.238 5	0.664 1	0.869 3	0.514 2	0.998 1	0.313 2	0.138 10	0.815 1	0.828 1	0.622 2	0.421 5	0.000 1	0.823 1	0.817 1	0.000 4	0.000 9	0.000 1	0.157 1	0.866 2	0.991 1	0.805 1	0.660 4	0.571 2	0.043 12	0.709 5	0.642 2	0.000 3	0.000 6	0.000 1	0.028 9	0.018 3	0.134 2	0.967 2	0.000 1	0.150 1	0.130 2	0.949 1	0.855 1	0.580 1	0.262 4	0.314 1	0.230 5	0.222 3	0.498 5	0.367 1	0.153 3	0.869 1	0.334 2	0.397 8	0.000 3	0.904 1	0.486 1	1.000 1	0.423 3	0.484 1	0.632 6	0.716 1	0.733 1	0.862 1	0.000 1	0.433 14	0.710 1	0.851 2	0.000 1	0.034 4	0.315 2	0.385 1	0.000 7	0.001 8	0.268 9	0.066 10	0.000 7	0.278 4	0.000 1	0.978 1	0.839 8	0.000 1	0.448 4	0.000 1	0.579 1	0.403 11	0.000 1	0.647 3	0.000 1	0.000 1	0.411 3	0.315 5	0.904 7	0.420 1	0.392 2	0.000 1	0.091 5	0.000 1	0.128 3	0.564 3	0.591 3	0.568 1	0.079 8	0.139 9	1.000 1	0.714 2	0.178 1	0.000 1	0.606 3	0.000 2	0.000 2	0.148 6	0.983 1	0.000 2	0.000 1	0.000 1	0.374 2	0.000 7	0.000 3	0.662 3	0.000 1
Karim Abou Zeid, Kadir Yilmaz, Daan de Geus, Alexander Hermans, David Adrian, Timm Linder, Bastian Leibe: DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation.
PTv3 ScanNet200	0.393 3	0.592 3	0.330 2	0.216 3	0.851 2	0.687 6	0.971 2	0.586 2	0.755 1	0.752 7	0.505 2	0.404 6	0.575 4	0.000 13	0.848 2	0.616 4	0.761 3	0.349 1	0.738 3	0.978 3	0.546 5	0.860 8	0.926 3	0.346 3	0.654 3	0.384 6	0.828 1	0.523 3	0.699 3	0.583 5	0.387 7	0.822 3	0.688 2	0.118 4	0.474 3	0.603 5	0.000 1	0.832 7	0.903 2	0.753 9	0.140 9	0.000 7	0.650 3	0.109 4	0.520 3	0.457 2	0.497 9	0.871 4	0.281 3	0.192 4	0.887 4	0.748 3	0.168 1	0.727 7	0.733 2	0.740 1	0.644 2	0.714 5	0.190 12	0.000 3	0.256 3	0.449 10	0.914 1	0.514 2	0.759 14	0.337 1	0.172 6	0.692 6	0.617 2	0.636 1	0.325 7	0.000 1	0.641 2	0.782 2	0.000 4	0.065 3	0.000 1	0.000 5	0.842 3	0.903 2	0.661 4	0.662 3	0.612 1	0.405 2	0.731 3	0.566 3	0.000 3	0.000 6	0.000 1	0.017 14	0.301 1	0.088 6	0.941 3	0.000 1	0.077 3	0.000 10	0.717 7	0.790 2	0.310 11	0.026 16	0.264 4	0.349 1	0.220 4	0.397 12	0.366 2	0.115 12	0.000 4	0.337 1	0.463 6	0.000 3	0.531 5	0.218 3	0.593 2	0.455 2	0.469 2	0.708 3	0.210 3	0.592 3	0.108 15	0.000 1	0.728 1	0.682 3	0.671 8	0.000 1	0.000 11	0.407 1	0.136 3	0.022 3	0.575 1	0.436 4	0.259 3	0.428 1	0.048 5	0.000 1	0.000 5	0.879 5	0.000 1	0.480 2	0.000 1	0.133 9	0.597 1	0.000 1	0.690 2	0.000 1	0.000 1	0.009 15	0.000 14	0.921 3	0.000 9	0.151 4	0.000 1	0.000 8	0.000 1	0.109 8	0.494 11	0.622 2	0.394 8	0.073 11	0.141 7	0.798 2	0.528 7	0.026 5	0.000 1	0.551 5	0.000 2	0.000 2	0.134 7	0.717 7	0.000 2	0.000 1	0.000 1	0.188 4	0.000 7	0.000 3	0.791 2	0.000 1
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
BFANet ScanNet200	0.360 4	0.553 6	0.293 4	0.193 4	0.827 4	0.689 4	0.970 3	0.528 12	0.661 6	0.753 6	0.436 7	0.378 7	0.469 14	0.042 7	0.810 3	0.654 2	0.760 4	0.266 9	0.659 9	0.973 4	0.574 3	0.849 11	0.897 4	0.382 2	0.546 12	0.372 8	0.698 13	0.491 8	0.617 9	0.526 9	0.436 1	0.764 13	0.476 16	0.101 5	0.409 6	0.585 10	0.000 1	0.835 5	0.901 3	0.810 5	0.102 13	0.000 7	0.688 2	0.096 5	0.483 10	0.264 11	0.612 8	0.591 15	0.358 1	0.161 5	0.863 5	0.707 4	0.128 3	0.814 2	0.669 4	0.629 9	0.563 4	0.651 14	0.258 4	0.000 3	0.194 10	0.494 9	0.806 11	0.394 6	0.953 4	0.000 6	0.233 1	0.757 4	0.508 5	0.556 4	0.476 4	0.000 1	0.573 5	0.741 6	0.000 4	0.000 9	0.000 1	0.000 5	0.000 16	0.852 5	0.678 3	0.616 5	0.460 5	0.338 3	0.710 4	0.534 4	0.000 3	0.025 3	0.000 1	0.043 2	0.000 4	0.056 11	0.493 16	0.000 1	0.000 9	0.109 5	0.785 6	0.590 6	0.298 12	0.282 3	0.143 12	0.262 4	0.053 10	0.526 4	0.337 5	0.215 1	0.000 4	0.135 9	0.510 4	0.000 3	0.596 4	0.043 13	0.511 3	0.321 11	0.459 3	0.772 2	0.124 12	0.060 13	0.266 5	0.000 1	0.574 9	0.568 9	0.653 10	0.000 1	0.093 1	0.298 3	0.239 2	0.000 7	0.516 2	0.129 13	0.284 2	0.000 7	0.431 1	0.000 1	0.000 5	0.848 6	0.000 1	0.492 1	0.000 1	0.376 3	0.522 5	0.000 1	0.469 16	0.000 1	0.000 1	0.330 6	0.151 9	0.875 14	0.000 9	0.254 3	0.000 1	0.000 8	0.000 1	0.088 12	0.661 1	0.481 4	0.255 11	0.105 1	0.139 9	0.666 5	0.641 4	0.000 12	0.000 1	0.614 2	0.000 2	0.000 2	0.000 11	0.921 2	0.000 2	0.000 1	0.000 1	0.497 1	0.000 7	0.000 3	0.000 10	0.000 1
Weiguang Zhao, Rui Zhang, Qiufeng Wang, Guangliang Cheng, Kaizhu Huang: BFANet: Revisiting 3D Semantic Segmentation with Boundary Feature Analysis. CVPR 2025
PonderV2 ScanNet200	0.346 5	0.552 7	0.270 7	0.175 8	0.810 7	0.682 9	0.950 5	0.560 6	0.641 9	0.761 3	0.398 12	0.357 9	0.570 7	0.113 2	0.804 5	0.603 6	0.750 6	0.283 4	0.681 6	0.952 5	0.548 4	0.874 4	0.852 12	0.290 11	0.700 2	0.356 10	0.792 5	0.445 11	0.545 12	0.436 11	0.351 12	0.787 9	0.611 7	0.050 7	0.290 13	0.519 12	0.000 1	0.825 9	0.888 5	0.842 3	0.259 3	0.100 2	0.558 6	0.070 11	0.497 7	0.247 13	0.457 10	0.889 3	0.248 8	0.106 9	0.817 12	0.691 6	0.094 6	0.729 6	0.636 6	0.620 11	0.503 10	0.660 13	0.243 6	0.000 3	0.212 7	0.590 5	0.860 7	0.400 5	0.881 8	0.000 6	0.202 2	0.622 9	0.408 10	0.499 8	0.261 10	0.000 1	0.385 9	0.636 10	0.000 4	0.000 9	0.000 1	0.000 5	0.433 15	0.843 6	0.660 6	0.574 11	0.481 4	0.336 4	0.677 8	0.486 5	0.000 3	0.030 2	0.000 1	0.034 5	0.000 4	0.080 7	0.869 9	0.000 1	0.000 9	0.000 10	0.540 9	0.727 3	0.232 16	0.115 10	0.186 9	0.193 8	0.000 13	0.403 11	0.326 6	0.103 13	0.000 4	0.290 4	0.392 9	0.000 3	0.346 9	0.062 9	0.424 4	0.375 6	0.431 6	0.667 4	0.115 13	0.082 11	0.239 6	0.000 1	0.504 12	0.606 8	0.584 11	0.000 1	0.002 9	0.186 9	0.104 9	0.000 7	0.394 4	0.384 6	0.083 8	0.000 7	0.007 8	0.000 1	0.000 5	0.880 4	0.000 1	0.377 9	0.000 1	0.263 6	0.565 2	0.000 1	0.608 8	0.000 1	0.000 1	0.304 7	0.009 10	0.924 2	0.000 9	0.000 10	0.000 1	0.000 8	0.000 1	0.128 3	0.584 2	0.475 6	0.412 7	0.076 10	0.269 3	0.621 6	0.509 8	0.010 7	0.000 1	0.491 11	0.063 1	0.000 2	0.472 4	0.880 3	0.000 2	0.000 1	0.000 1	0.179 5	0.125 2	0.000 3	0.441 9	0.000 1
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
ALS-MinkowskiNet	0.414 2	0.610 2	0.322 3	0.271 2	0.852 1	0.710 2	0.973 1	0.572 3	0.719 3	0.795 2	0.477 5	0.506 1	0.601 2	0.000 13	0.804 5	0.646 3	0.804 2	0.344 2	0.777 1	0.984 1	0.671 1	0.879 2	0.936 1	0.342 4	0.632 7	0.449 3	0.817 3	0.475 9	0.723 2	0.798 1	0.376 8	0.832 2	0.693 1	0.031 8	0.564 1	0.510 13	0.000 1	0.893 2	0.905 1	0.672 16	0.314 1	0.000 7	0.718 1	0.153 2	0.542 2	0.397 3	0.726 3	0.752 8	0.252 7	0.226 2	0.916 2	0.800 1	0.047 15	0.807 3	0.769 1	0.709 3	0.630 3	0.769 1	0.217 9	0.000 3	0.285 1	0.598 4	0.846 9	0.535 1	0.956 3	0.000 6	0.137 11	0.784 2	0.464 6	0.463 13	0.230 11	0.000 1	0.598 3	0.662 9	0.000 4	0.087 2	0.000 1	0.135 2	0.900 1	0.780 11	0.703 2	0.741 1	0.571 2	0.149 9	0.697 6	0.646 1	0.000 3	0.076 1	0.000 1	0.025 10	0.000 4	0.106 5	0.981 1	0.000 1	0.043 6	0.113 4	0.888 2	0.248 15	0.404 4	0.252 5	0.314 1	0.220 6	0.245 1	0.466 7	0.366 2	0.159 2	0.000 4	0.149 8	0.690 2	0.000 3	0.531 5	0.253 2	0.285 5	0.460 1	0.440 5	0.813 1	0.230 2	0.283 5	0.159 10	0.000 1	0.728 1	0.666 5	0.958 1	0.000 1	0.021 5	0.252 7	0.118 4	0.000 7	0.445 3	0.223 10	0.285 1	0.194 3	0.390 2	0.000 1	0.475 4	0.842 7	0.000 1	0.455 3	0.000 1	0.250 7	0.458 7	0.000 1	0.865 1	0.000 1	0.000 1	0.635 1	0.359 4	0.972 1	0.087 3	0.447 1	0.000 1	0.000 8	0.000 1	0.129 2	0.532 6	0.446 7	0.503 4	0.071 12	0.135 12	0.699 4	0.717 1	0.097 2	0.000 1	0.665 1	0.000 2	0.000 2	1.000 1	0.752 5	0.000 2	0.000 1	0.000 1	0.142 9	0.200 1	0.259 1	1.000 1	0.000 1
Guangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum: ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding. arxiv
OA-CNN-L_ScanNet200	0.333 10	0.558 4	0.269 8	0.124 12	0.821 5	0.703 3	0.946 6	0.569 4	0.662 4	0.748 8	0.487 3	0.455 3	0.572 6	0.000 13	0.789 9	0.534 8	0.736 8	0.271 7	0.713 4	0.949 6	0.498 13	0.877 3	0.860 10	0.332 6	0.706 1	0.474 2	0.788 7	0.406 12	0.637 5	0.495 10	0.355 11	0.805 7	0.592 11	0.015 12	0.396 7	0.602 6	0.000 1	0.799 10	0.876 7	0.713 13	0.276 2	0.000 7	0.493 12	0.080 8	0.448 14	0.363 4	0.661 4	0.833 6	0.262 5	0.125 6	0.823 11	0.665 8	0.076 8	0.720 8	0.557 10	0.637 8	0.517 8	0.672 10	0.227 7	0.000 3	0.158 12	0.496 8	0.843 10	0.352 9	0.835 12	0.000 6	0.103 14	0.711 5	0.527 3	0.526 6	0.320 8	0.000 1	0.568 6	0.625 11	0.067 1	0.000 9	0.000 1	0.001 4	0.806 5	0.836 7	0.621 9	0.591 7	0.373 8	0.314 5	0.668 9	0.398 8	0.003 2	0.000 6	0.000 1	0.016 15	0.024 2	0.043 12	0.906 6	0.000 1	0.052 5	0.000 10	0.384 11	0.330 12	0.342 7	0.100 11	0.223 6	0.183 12	0.112 6	0.476 6	0.313 7	0.130 9	0.196 3	0.112 11	0.370 11	0.000 3	0.234 11	0.071 8	0.160 6	0.403 5	0.398 13	0.492 14	0.197 5	0.076 12	0.272 4	0.000 1	0.200 16	0.560 10	0.735 7	0.000 1	0.000 11	0.000 11	0.110 7	0.002 6	0.021 7	0.412 5	0.000 11	0.000 7	0.000 10	0.000 1	0.000 5	0.794 11	0.000 1	0.445 5	0.000 1	0.022 10	0.509 6	0.000 1	0.517 12	0.000 1	0.000 1	0.001 16	0.245 6	0.915 5	0.024 6	0.089 6	0.000 1	0.262 2	0.000 1	0.103 10	0.524 7	0.392 10	0.515 3	0.013 16	0.251 4	0.411 12	0.662 3	0.001 11	0.000 1	0.473 12	0.000 2	0.000 2	0.150 5	0.699 8	0.000 2	0.000 1	0.000 1	0.166 6	0.000 7	0.024 2	0.000 10	0.000 1

OctFormer ScanNet200	0.326 12	0.539 9	0.265 9	0.131 11	0.806 8	0.670 12	0.943 9	0.535 11	0.662 4	0.705 15	0.423 8	0.407 5	0.505 12	0.003 11	0.765 12	0.582 7	0.686 14	0.227 15	0.680 7	0.943 10	0.601 2	0.854 10	0.892 5	0.335 5	0.417 16	0.357 9	0.724 9	0.453 10	0.632 6	0.596 4	0.432 3	0.783 10	0.512 15	0.021 11	0.244 14	0.637 2	0.000 1	0.787 11	0.873 9	0.743 11	0.000 16	0.000 7	0.534 8	0.110 3	0.499 6	0.289 9	0.626 6	0.620 11	0.168 14	0.204 3	0.849 9	0.679 7	0.117 4	0.633 11	0.684 3	0.650 7	0.552 5	0.684 9	0.312 3	0.000 3	0.175 11	0.429 11	0.865 4	0.413 4	0.837 11	0.000 6	0.145 8	0.626 8	0.451 7	0.487 11	0.513 3	0.000 1	0.529 7	0.613 12	0.000 4	0.033 6	0.000 1	0.000 5	0.828 4	0.871 3	0.622 8	0.587 8	0.411 7	0.137 10	0.645 13	0.343 11	0.000 3	0.000 6	0.000 1	0.022 12	0.000 4	0.026 16	0.829 10	0.000 1	0.022 7	0.089 6	0.842 3	0.253 14	0.318 10	0.296 2	0.178 10	0.291 3	0.224 2	0.584 2	0.200 13	0.132 8	0.000 4	0.128 10	0.227 13	0.000 3	0.230 12	0.047 10	0.149 7	0.331 9	0.412 9	0.618 7	0.164 9	0.102 10	0.522 2	0.000 1	0.655 4	0.378 12	0.469 14	0.000 1	0.000 11	0.000 11	0.105 8	0.000 7	0.000 9	0.483 3	0.000 11	0.000 7	0.028 7	0.000 1	0.000 5	0.906 1	0.000 1	0.339 14	0.000 1	0.000 12	0.457 8	0.000 1	0.612 7	0.000 1	0.000 1	0.408 4	0.000 14	0.900 10	0.000 9	0.000 10	0.000 1	0.029 7	0.000 1	0.074 14	0.455 14	0.479 5	0.427 6	0.079 8	0.140 8	0.496 8	0.414 13	0.022 6	0.000 1	0.471 13	0.000 2	0.000 2	0.000 11	0.722 6	0.000 2	0.000 1	0.000 1	0.138 13	0.000 7	0.000 3	0.000 10	0.000 1
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
GSTran	0.334 9	0.533 11	0.250 11	0.179 7	0.799 10	0.684 7	0.940 10	0.554 8	0.633 10	0.741 9	0.405 10	0.337 11	0.560 8	0.060 5	0.794 8	0.517 12	0.732 10	0.274 5	0.647 11	0.948 7	0.459 15	0.849 11	0.864 8	0.306 8	0.648 5	0.282 13	0.717 11	0.496 6	0.624 8	0.533 7	0.363 9	0.821 4	0.573 13	0.009 14	0.411 4	0.593 9	0.000 1	0.841 4	0.873 9	0.704 14	0.242 5	0.000 7	0.495 10	0.041 15	0.487 8	0.304 7	0.439 12	0.613 12	0.133 16	0.055 15	0.853 7	0.634 11	0.075 11	0.791 5	0.601 9	0.574 15	0.483 12	0.669 11	0.217 9	0.000 3	0.198 8	0.518 6	0.782 13	0.345 10	0.914 5	0.273 4	0.193 3	0.598 13	0.440 8	0.499 8	0.570 1	0.000 1	0.381 10	0.775 4	0.000 4	0.063 5	0.000 1	0.000 5	0.712 7	0.752 13	0.507 11	0.512 15	0.158 15	0.036 13	0.773 1	0.361 10	0.000 3	0.000 6	0.000 1	0.032 6	0.000 4	0.032 14	0.651 14	0.000 1	0.000 9	0.000 10	0.831 4	0.595 4	0.273 15	0.229 6	0.200 8	0.191 9	0.000 13	0.425 9	0.233 12	0.125 10	0.000 4	0.279 5	0.213 15	0.003 1	0.608 3	0.044 11	0.138 8	0.321 11	0.408 11	0.593 10	0.198 4	0.205 7	0.139 12	0.000 1	0.614 7	0.609 7	0.838 4	0.000 1	0.014 6	0.260 5	0.080 11	0.010 5	0.000 9	0.136 12	0.136 4	0.047 5	0.000 10	0.000 1	0.787 3	0.797 10	0.000 1	0.354 13	0.000 1	0.372 4	0.357 13	0.000 1	0.507 15	0.000 1	0.000 1	0.121 10	0.423 2	0.903 8	0.028 4	0.089 6	0.000 1	0.252 3	0.000 1	0.072 16	0.465 12	0.340 11	0.189 15	0.020 15	0.011 15	0.320 15	0.606 6	0.060 3	0.000 1	0.496 9	0.000 2	0.000 2	0.070 9	0.618 12	0.000 2	0.000 1	0.000 1	0.139 11	0.047 4	0.000 3	0.558 7	0.000 1

IMFSegNet	0.334 8	0.532 12	0.251 10	0.179 6	0.799 10	0.683 8	0.940 10	0.555 7	0.631 11	0.740 10	0.406 9	0.336 12	0.560 8	0.062 4	0.795 7	0.518 11	0.733 9	0.274 5	0.646 12	0.947 8	0.458 16	0.848 13	0.862 9	0.305 9	0.649 4	0.284 12	0.713 12	0.495 7	0.626 7	0.527 8	0.363 9	0.820 5	0.574 12	0.010 13	0.411 4	0.597 7	0.000 1	0.842 3	0.873 9	0.704 14	0.246 4	0.000 7	0.495 10	0.041 15	0.486 9	0.305 6	0.444 11	0.604 14	0.134 15	0.055 15	0.852 8	0.633 12	0.076 8	0.792 4	0.612 8	0.573 16	0.484 11	0.668 12	0.216 11	0.000 3	0.197 9	0.518 6	0.784 12	0.344 11	0.908 6	0.283 3	0.190 4	0.599 12	0.439 9	0.496 10	0.569 2	0.000 1	0.392 8	0.776 3	0.000 4	0.064 4	0.000 1	0.000 5	0.710 8	0.756 12	0.508 10	0.512 15	0.159 14	0.034 14	0.773 1	0.363 9	0.000 3	0.000 6	0.000 1	0.032 6	0.000 4	0.029 15	0.648 15	0.000 1	0.000 9	0.000 10	0.830 5	0.595 4	0.274 14	0.228 7	0.206 7	0.188 11	0.000 13	0.425 9	0.237 11	0.123 11	0.000 4	0.277 6	0.214 14	0.003 1	0.610 2	0.044 11	0.124 9	0.320 13	0.408 11	0.594 9	0.196 6	0.213 6	0.139 12	0.000 1	0.615 6	0.618 6	0.839 3	0.000 1	0.014 6	0.260 5	0.080 11	0.025 2	0.000 9	0.139 11	0.135 5	0.035 6	0.000 10	0.000 1	0.793 2	0.799 9	0.000 1	0.357 12	0.000 1	0.369 5	0.359 12	0.000 1	0.512 14	0.000 1	0.000 1	0.120 11	0.424 1	0.903 8	0.027 5	0.091 5	0.000 1	0.245 4	0.000 1	0.073 15	0.457 13	0.340 11	0.191 14	0.021 14	0.009 16	0.322 14	0.608 5	0.060 3	0.000 1	0.494 10	0.000 2	0.000 2	0.068 10	0.624 10	0.000 2	0.000 1	0.000 1	0.139 11	0.047 4	0.000 3	0.561 6	0.000 1

PPT-SpUNet-F.T.	0.332 11	0.556 5	0.270 6	0.123 13	0.816 6	0.682 9	0.946 6	0.549 9	0.657 8	0.756 5	0.459 6	0.376 8	0.550 10	0.001 12	0.807 4	0.616 4	0.727 11	0.267 8	0.691 5	0.942 11	0.530 8	0.872 5	0.874 7	0.330 7	0.542 13	0.374 7	0.792 5	0.400 13	0.673 4	0.572 6	0.433 2	0.793 8	0.623 6	0.008 15	0.351 9	0.594 8	0.000 1	0.783 12	0.876 7	0.833 4	0.213 6	0.000 7	0.537 7	0.091 6	0.519 4	0.304 7	0.620 7	0.942 2	0.264 4	0.124 7	0.855 6	0.695 5	0.086 7	0.646 10	0.506 15	0.658 6	0.535 6	0.715 4	0.314 2	0.000 3	0.241 4	0.608 3	0.897 2	0.359 8	0.858 10	0.000 6	0.076 16	0.611 10	0.392 11	0.509 7	0.378 6	0.000 1	0.579 4	0.565 15	0.000 4	0.000 9	0.000 1	0.000 5	0.755 6	0.806 9	0.661 4	0.572 12	0.350 9	0.181 7	0.660 11	0.300 13	0.000 3	0.000 6	0.000 1	0.023 11	0.000 4	0.042 13	0.930 4	0.000 1	0.000 9	0.077 7	0.584 8	0.392 10	0.339 8	0.185 9	0.171 11	0.308 2	0.006 12	0.563 3	0.256 8	0.150 4	0.000 4	0.002 15	0.345 12	0.000 3	0.045 13	0.197 4	0.063 10	0.323 10	0.453 4	0.600 8	0.163 10	0.037 14	0.349 3	0.000 1	0.672 3	0.679 4	0.753 5	0.000 1	0.000 11	0.000 11	0.117 5	0.000 7	0.000 9	0.291 8	0.000 11	0.000 7	0.039 6	0.000 1	0.000 5	0.899 2	0.000 1	0.374 10	0.000 1	0.000 12	0.545 4	0.000 1	0.634 5	0.000 1	0.000 1	0.074 12	0.223 7	0.914 6	0.000 9	0.021 8	0.000 1	0.000 8	0.000 1	0.112 6	0.498 10	0.649 1	0.383 9	0.095 2	0.135 12	0.449 10	0.432 11	0.008 9	0.000 1	0.518 7	0.000 2	0.000 2	0.000 11	0.796 4	0.000 2	0.000 1	0.000 1	0.138 13	0.000 7	0.000 3	0.000 10	0.000 1
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
CSC-Pretrain	0.249 16	0.455 16	0.171 15	0.079 16	0.766 16	0.659 14	0.930 16	0.494 13	0.542 16	0.700 16	0.314 16	0.215 16	0.430 16	0.121 1	0.697 16	0.441 15	0.683 15	0.235 13	0.609 16	0.895 15	0.476 14	0.816 15	0.770 16	0.186 13	0.634 6	0.216 16	0.734 8	0.340 15	0.471 15	0.307 15	0.293 16	0.591 16	0.542 14	0.076 6	0.205 15	0.464 14	0.000 1	0.484 16	0.832 16	0.766 7	0.052 15	0.000 7	0.413 15	0.059 13	0.418 15	0.222 15	0.318 16	0.609 13	0.206 12	0.112 8	0.743 13	0.625 13	0.076 8	0.579 15	0.548 12	0.590 13	0.371 15	0.552 16	0.081 15	0.003 2	0.142 13	0.201 16	0.638 16	0.233 15	0.686 16	0.000 6	0.142 9	0.444 16	0.375 12	0.247 16	0.198 13	0.000 1	0.128 16	0.454 16	0.019 2	0.097 1	0.000 1	0.000 5	0.553 13	0.557 15	0.373 12	0.545 13	0.164 13	0.014 16	0.547 15	0.174 14	0.000 3	0.002 4	0.000 1	0.037 3	0.000 4	0.063 10	0.664 13	0.000 1	0.000 9	0.130 2	0.170 13	0.152 16	0.335 9	0.079 13	0.110 14	0.175 13	0.098 8	0.175 16	0.166 14	0.045 16	0.207 2	0.014 13	0.465 5	0.000 3	0.001 16	0.001 16	0.046 11	0.299 14	0.327 15	0.537 12	0.033 15	0.012 16	0.186 9	0.000 1	0.205 15	0.377 13	0.463 15	0.000 1	0.058 3	0.000 11	0.055 14	0.041 1	0.000 9	0.105 15	0.000 11	0.000 7	0.000 10	0.000 1	0.000 5	0.398 14	0.000 1	0.308 16	0.000 1	0.000 12	0.319 14	0.000 1	0.543 11	0.000 1	0.000 1	0.062 14	0.004 12	0.862 15	0.000 9	0.000 10	0.000 1	0.000 8	0.000 1	0.123 5	0.316 15	0.225 14	0.250 12	0.094 3	0.180 5	0.332 13	0.441 10	0.000 12	0.000 1	0.310 16	0.000 2	0.000 2	0.000 11	0.592 13	0.000 2	0.000 1	0.000 1	0.203 3	0.000 7	0.000 3	0.000 10	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
CeCo	0.340 6	0.551 8	0.247 12	0.181 5	0.784 12	0.661 13	0.939 12	0.564 5	0.624 12	0.721 11	0.484 4	0.429 4	0.575 4	0.027 8	0.774 11	0.503 13	0.753 5	0.242 12	0.656 10	0.945 9	0.534 6	0.865 7	0.860 10	0.177 16	0.616 8	0.400 4	0.818 2	0.579 1	0.615 10	0.367 13	0.408 6	0.726 14	0.633 4	0.162 1	0.360 8	0.619 3	0.000 1	0.828 8	0.873 9	0.924 2	0.109 12	0.083 3	0.564 5	0.057 14	0.475 12	0.266 10	0.781 2	0.767 7	0.257 6	0.100 10	0.825 10	0.663 9	0.048 14	0.620 13	0.551 11	0.595 12	0.532 7	0.692 8	0.246 5	0.000 3	0.213 6	0.615 2	0.861 6	0.376 7	0.900 7	0.000 6	0.102 15	0.660 7	0.321 14	0.547 5	0.226 12	0.000 1	0.311 12	0.742 5	0.011 3	0.006 8	0.000 1	0.000 5	0.546 14	0.824 8	0.345 13	0.665 2	0.450 6	0.435 1	0.683 7	0.411 7	0.338 1	0.000 6	0.000 1	0.030 8	0.000 4	0.068 8	0.892 7	0.000 1	0.063 4	0.000 10	0.257 12	0.304 13	0.387 5	0.079 13	0.228 5	0.190 10	0.000 13	0.586 1	0.347 4	0.133 7	0.000 4	0.037 12	0.377 10	0.000 3	0.384 8	0.006 15	0.003 12	0.421 4	0.410 10	0.643 5	0.171 8	0.121 8	0.142 11	0.000 1	0.510 11	0.447 11	0.474 13	0.000 1	0.000 11	0.286 4	0.083 10	0.000 7	0.000 9	0.603 1	0.096 7	0.063 4	0.000 10	0.000 1	0.000 5	0.898 3	0.000 1	0.429 6	0.000 1	0.400 2	0.550 3	0.000 1	0.633 6	0.000 1	0.000 1	0.377 5	0.000 14	0.916 4	0.000 9	0.000 10	0.000 1	0.000 8	0.000 1	0.102 11	0.499 9	0.296 13	0.463 5	0.089 5	0.304 1	0.740 3	0.401 15	0.010 7	0.000 1	0.560 4	0.000 2	0.000 2	0.709 2	0.652 9	0.000 2	0.000 1	0.000 1	0.143 8	0.000 7	0.000 3	0.609 4	0.000 1
Zhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia: Understanding Imbalanced Semantic Segmentation Through Neural Collapse. CVPR 2023
Minkowski 34D	0.253 15	0.463 15	0.154 16	0.102 15	0.771 15	0.650 15	0.932 14	0.483 15	0.571 15	0.710 14	0.331 15	0.250 15	0.492 13	0.044 6	0.703 15	0.419 16	0.606 16	0.227 15	0.621 15	0.865 16	0.531 7	0.771 16	0.813 13	0.291 10	0.484 14	0.242 15	0.612 16	0.282 16	0.440 16	0.351 14	0.299 14	0.622 15	0.593 10	0.027 10	0.293 12	0.310 16	0.000 1	0.757 13	0.858 14	0.737 12	0.150 8	0.164 1	0.368 16	0.084 7	0.381 16	0.142 16	0.357 14	0.720 9	0.214 11	0.092 13	0.724 15	0.596 16	0.056 13	0.655 9	0.525 13	0.581 14	0.352 16	0.594 15	0.056 16	0.000 3	0.014 16	0.224 15	0.772 14	0.205 16	0.720 15	0.000 6	0.159 7	0.531 15	0.163 16	0.294 15	0.136 16	0.000 1	0.169 15	0.589 14	0.000 4	0.000 9	0.000 1	0.002 3	0.663 9	0.466 16	0.265 16	0.582 9	0.337 10	0.016 15	0.559 14	0.084 16	0.000 3	0.000 6	0.000 1	0.036 4	0.000 4	0.125 4	0.670 12	0.000 1	0.102 2	0.071 8	0.164 14	0.406 9	0.386 6	0.046 15	0.068 16	0.159 14	0.117 5	0.284 15	0.111 15	0.094 15	0.000 4	0.000 16	0.197 16	0.000 3	0.044 14	0.013 14	0.002 13	0.228 16	0.307 16	0.588 11	0.025 16	0.545 4	0.134 14	0.000 1	0.655 4	0.302 14	0.282 16	0.000 1	0.060 2	0.000 11	0.035 16	0.000 7	0.000 9	0.097 16	0.000 11	0.000 7	0.005 9	0.000 1	0.000 5	0.096 16	0.000 1	0.334 15	0.000 1	0.000 12	0.274 15	0.000 1	0.513 13	0.000 1	0.000 1	0.280 8	0.194 8	0.897 11	0.000 9	0.000 10	0.000 1	0.000 8	0.000 1	0.108 9	0.279 16	0.189 15	0.141 16	0.059 13	0.272 2	0.307 16	0.445 9	0.003 10	0.000 1	0.353 15	0.000 2	0.026 1	0.000 11	0.581 14	0.001 1	0.000 1	0.000 1	0.093 16	0.002 6	0.000 3	0.000 10	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
L3DETR-ScanNet_200	0.336 7	0.533 10	0.279 5	0.155 9	0.801 9	0.689 4	0.946 6	0.539 10	0.660 7	0.759 4	0.380 13	0.333 13	0.583 3	0.000 13	0.788 10	0.529 9	0.740 7	0.261 11	0.679 8	0.940 12	0.525 9	0.860 8	0.883 6	0.226 12	0.613 9	0.397 5	0.720 10	0.512 4	0.565 11	0.620 3	0.417 4	0.775 12	0.629 5	0.158 2	0.298 11	0.579 11	0.000 1	0.835 5	0.883 6	0.927 1	0.114 10	0.079 4	0.511 9	0.073 10	0.508 5	0.312 5	0.629 5	0.861 5	0.192 13	0.098 12	0.908 3	0.636 10	0.032 16	0.563 16	0.514 14	0.664 5	0.505 9	0.697 7	0.225 8	0.000 3	0.264 2	0.411 12	0.860 7	0.321 12	0.960 2	0.058 5	0.109 13	0.776 3	0.526 4	0.557 3	0.303 9	0.000 1	0.339 11	0.712 7	0.000 4	0.014 7	0.000 1	0.000 5	0.638 11	0.856 4	0.641 7	0.579 10	0.107 16	0.119 11	0.661 10	0.416 6	0.000 3	0.000 6	0.000 1	0.007 16	0.000 4	0.067 9	0.910 5	0.000 1	0.000 9	0.000 10	0.463 10	0.448 8	0.294 13	0.324 1	0.293 3	0.211 7	0.108 7	0.448 8	0.068 16	0.141 6	0.000 4	0.330 3	0.699 1	0.000 3	0.256 10	0.192 5	0.000 14	0.355 7	0.418 7	0.209 16	0.146 11	0.679 2	0.101 16	0.000 1	0.503 13	0.687 2	0.671 8	0.000 1	0.000 11	0.174 10	0.117 5	0.000 7	0.122 6	0.515 2	0.104 6	0.259 2	0.312 3	0.000 1	0.000 5	0.765 12	0.000 1	0.369 11	0.000 1	0.183 8	0.422 10	0.000 1	0.646 4	0.000 1	0.000 1	0.565 2	0.001 13	0.125 16	0.010 7	0.002 9	0.000 1	0.487 1	0.000 1	0.075 13	0.548 4	0.420 8	0.233 13	0.082 7	0.138 11	0.430 11	0.427 12	0.000 12	0.000 1	0.549 6	0.000 2	0.000 2	0.074 8	0.409 15	0.000 2	0.000 1	0.000 1	0.152 7	0.051 3	0.000 3	0.598 5	0.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, Jian Zhang: Language-Assisted 3D Scene Understanding. arXiv23.12
AWCS	0.305 13	0.508 13	0.225 13	0.142 10	0.782 13	0.634 16	0.937 13	0.489 14	0.578 13	0.721 11	0.364 14	0.355 10	0.515 11	0.023 9	0.764 13	0.523 10	0.707 13	0.264 10	0.633 13	0.922 13	0.507 12	0.886 1	0.804 14	0.179 14	0.436 15	0.300 11	0.656 15	0.529 2	0.501 14	0.394 12	0.296 15	0.820 5	0.603 8	0.131 3	0.179 16	0.619 3	0.000 1	0.707 15	0.865 13	0.773 6	0.171 7	0.010 6	0.484 13	0.063 12	0.463 13	0.254 12	0.332 15	0.649 10	0.220 10	0.100 10	0.729 14	0.613 14	0.071 12	0.582 14	0.628 7	0.702 4	0.424 14	0.749 2	0.137 14	0.000 3	0.142 13	0.360 13	0.863 5	0.305 13	0.877 9	0.000 6	0.173 5	0.606 11	0.337 13	0.478 12	0.154 14	0.000 1	0.253 13	0.664 8	0.000 4	0.000 9	0.000 1	0.000 5	0.626 12	0.782 10	0.302 15	0.602 6	0.185 12	0.282 6	0.651 12	0.317 12	0.000 3	0.000 6	0.000 1	0.022 12	0.000 4	0.154 1	0.876 8	0.000 1	0.014 8	0.063 9	0.029 16	0.553 7	0.467 3	0.084 12	0.124 13	0.157 15	0.049 11	0.373 13	0.252 9	0.097 14	0.000 4	0.219 7	0.542 3	0.000 3	0.392 7	0.172 7	0.000 14	0.339 8	0.417 8	0.533 13	0.093 14	0.115 9	0.195 8	0.000 1	0.516 10	0.288 15	0.741 6	0.000 1	0.001 10	0.233 8	0.056 13	0.000 7	0.159 5	0.334 7	0.077 9	0.000 7	0.000 10	0.000 1	0.000 5	0.749 13	0.000 1	0.411 7	0.000 1	0.008 11	0.452 9	0.000 1	0.595 9	0.000 1	0.000 1	0.220 9	0.006 11	0.894 12	0.006 8	0.000 10	0.000 1	0.000 8	0.000 1	0.112 6	0.504 8	0.404 9	0.551 2	0.093 4	0.129 14	0.484 9	0.381 16	0.000 12	0.000 1	0.396 14	0.000 2	0.000 2	0.620 3	0.402 16	0.000 2	0.000 1	0.000 1	0.142 9	0.000 7	0.000 3	0.512 8	0.000 1
: Long-Tailed 3D Semantic Segmentation with Adaptive Weight Constraint and Sampling. ICRA 2024
LGround	0.272 14	0.485 14	0.184 14	0.106 14	0.778 14	0.676 11	0.932 14	0.479 16	0.572 14	0.718 13	0.399 11	0.265 14	0.453 15	0.085 3	0.745 14	0.446 14	0.726 12	0.232 14	0.622 14	0.901 14	0.512 10	0.826 14	0.786 15	0.178 15	0.549 11	0.277 14	0.659 14	0.381 14	0.518 13	0.295 16	0.323 13	0.777 11	0.599 9	0.028 9	0.321 10	0.363 15	0.000 1	0.708 14	0.858 14	0.746 10	0.063 14	0.022 5	0.457 14	0.077 9	0.476 11	0.243 14	0.402 13	0.397 16	0.233 9	0.077 14	0.720 16	0.610 15	0.103 5	0.629 12	0.437 16	0.626 10	0.446 13	0.702 6	0.190 12	0.005 1	0.058 15	0.322 14	0.702 15	0.244 14	0.768 13	0.000 6	0.134 12	0.552 14	0.279 15	0.395 14	0.147 15	0.000 1	0.207 14	0.612 13	0.000 4	0.000 9	0.000 1	0.000 5	0.658 10	0.566 14	0.323 14	0.525 14	0.229 11	0.179 8	0.467 16	0.154 15	0.000 3	0.002 4	0.000 1	0.051 1	0.000 4	0.127 3	0.703 11	0.000 1	0.000 9	0.216 1	0.112 15	0.358 11	0.547 2	0.187 8	0.092 15	0.156 16	0.055 9	0.296 14	0.252 9	0.143 5	0.000 4	0.014 13	0.398 7	0.000 3	0.028 15	0.173 6	0.000 14	0.265 15	0.348 14	0.415 15	0.179 7	0.019 15	0.218 7	0.000 1	0.597 8	0.274 16	0.565 12	0.000 1	0.012 8	0.000 11	0.039 15	0.022 3	0.000 9	0.117 14	0.000 11	0.000 7	0.000 10	0.000 1	0.000 5	0.324 15	0.000 1	0.384 8	0.000 1	0.000 12	0.251 16	0.000 1	0.566 10	0.000 1	0.000 1	0.066 13	0.404 3	0.886 13	0.199 2	0.000 10	0.000 1	0.059 6	0.000 1	0.136 1	0.540 5	0.127 16	0.295 10	0.085 6	0.143 6	0.514 7	0.413 14	0.000 12	0.000 1	0.498 8	0.000 2	0.000 2	0.000 11	0.623 11	0.000 2	0.000 1	0.000 1	0.132 15	0.000 7	0.000 3	0.000 10	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild. arXiv

This table lists the benchmark results for the ScanNet200 3D semantic instance scenario.

Method	avg	chair	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	armchair	coffee table	box	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	ottoman	bench	board	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	rail	radiator	recycling bin	wardrobe	soap dispenser	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	guitar	toilet paper holder	seat	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	fireplace	soap dish	kitchen counter	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	shower door	pillar	ledge	toilet seat cover dispenser	cart	tissue box	light switch	crate	power outlet	decoration	projector	closet door	vacuum cleaner	candle	stuffed animal	headphones	dish rack	broom	guitar case	range hood	dustpan	water bottle	vent	mailbox	bowl	paper bag	alarm clock	music stand	projector screen	laundry detergent	bathroom counter	bathroom vanity	laundry hamper	bathroom stall door	trash bin	dumbbell	stair rail	tube	bathroom cabinet	cd case	closet rod	coffee kettle	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster	potted plant	luggage	mattress

TD3D Scannet200	0.320 2	0.501 2	0.264 2	0.164 2	0.841 1	0.679 1	0.716 2	0.879 2	0.280 3	0.192 1	0.634 1	0.231 1	0.733 3	0.459 2	0.565 3	0.498 5	0.560 2	1.000 1	0.686 1	0.890 2	0.708 1	0.123 4	0.820 1	0.152 2	0.967 1	0.456 1	0.458 2	0.387 2	0.194 1	0.435 5	0.906 1	0.077 1	0.396 2	0.509 1	0.217 2	0.715 1	0.619 2	1.000 1	0.099 2	0.792 1	0.513 2	0.062 2	0.506 3	0.549 1	0.605 1	1.000 1	0.123 4	0.106 1	1.000 1	0.744 4	0.000 2	1.000 1	0.504 5	0.525 2	0.185 2	0.790 4	0.101 2	0.008 2	0.587 2	0.356 1	0.817 1	0.083 5	1.000 1	0.000 1	0.621 1	0.842 1	0.415 1	0.268 4	0.083 4	0.000 2	0.098 3	0.881 1	0.125 2	0.000 2	0.000 1	0.000 2	0.000 3	0.125 4	0.332 3	0.448 5	0.202 2	0.196 1	0.798 1	0.264 2	0.000 2	0.000 1	0.017 2	0.233 2	0.000 1	0.063 1	0.333 2	0.038 1	0.111 1	0.250 3	0.000 2	0.516 1	0.208 1	0.470 2	0.094 3	0.218 1	0.000 1	0.667 2	0.033 5	0.000 2	0.000 1	0.400 1	0.156 2	0.000 1	0.267 1	0.226 1	0.000 1	0.104 2	0.159 2	0.299 5	0.095 3	0.458 1	0.500 1	0.000 1	1.000 1	0.472 1	0.792 3	0.000 1	0.022 1	0.061 2	0.250 1	0.008 1	0.250 2	0.333 2	0.143 2	0.396 2	0.049 2	0.012 1	0.000 1	0.283 4	0.000 1	0.241 4	0.000 1	0.101 2	0.331 4	0.000 1	0.629 3	0.000 1	0.000 1	0.857 2	0.222 3	0.677 1	0.000 1	0.003 2	0.000 1	0.000 2	0.000 1	0.076 2	0.252 3	0.400 1	0.431 2	0.061 3	0.328 3	0.331 4	0.500 1	0.000 2	0.000 1	0.167 1	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	1.000 1	0.542 1	0.000 2	0.063 1	0.000 2	0.000 1
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
Mask3D Scannet200	0.388 1	0.542 1	0.357 1	0.237 1	0.808 2	0.676 2	0.741 1	0.832 4	0.496 1	0.151 3	0.628 2	0.021 2	0.955 1	0.578 1	0.753 1	0.612 1	0.591 1	0.822 5	0.609 3	0.926 1	0.614 3	0.291 1	0.725 4	0.163 1	0.890 2	0.380 5	0.615 1	0.517 1	0.130 3	0.806 1	0.857 2	0.024 2	0.511 1	0.412 5	0.226 1	0.597 2	0.756 1	1.000 1	0.111 1	0.792 1	0.736 1	0.091 1	0.610 1	0.527 2	0.323 4	1.000 1	0.504 1	0.063 2	1.000 1	0.853 1	0.010 1	0.974 3	0.839 1	0.667 1	0.301 1	0.883 1	0.266 1	0.039 1	0.640 1	0.311 2	0.739 2	0.463 1	1.000 1	0.000 1	0.287 2	0.715 2	0.313 2	0.600 1	1.000 1	0.027 1	0.076 4	0.502 5	0.500 1	0.409 1	0.000 1	0.194 1	0.125 2	0.500 1	0.491 1	0.748 1	0.050 4	0.042 2	0.776 2	0.352 1	0.008 1	0.000 1	0.033 1	0.254 1	0.000 1	0.005 2	0.552 1	0.008 2	0.020 2	0.750 1	0.500 1	0.409 2	0.065 3	0.511 1	0.107 1	0.178 2	0.000 1	1.000 1	0.400 1	0.016 1	0.000 1	0.400 1	0.571 1	0.000 1	0.060 2	0.044 2	0.000 1	0.514 1	0.278 1	1.000 1	0.258 1	0.017 3	0.125 5	0.000 1	0.792 3	0.399 3	1.000 1	0.000 1	0.013 2	0.265 1	0.018 2	0.000 2	1.000 1	0.335 1	0.381 1	0.500 1	0.250 1	0.004 2	0.000 1	0.727 1	0.000 1	0.497 1	0.000 1	0.188 1	0.677 2	0.000 1	0.708 2	0.000 1	0.000 1	0.945 1	0.391 1	0.123 4	0.000 1	0.028 1	0.000 1	1.000 1	0.000 1	0.099 1	0.451 1	0.400 1	0.668 1	0.573 1	0.606 1	0.077 5	0.003 4	0.004 1	0.000 1	0.042 3	0.000 1	0.000 1	1.000 1	1.000 1	0.000 1	0.042 1	0.000 2	0.200 2	0.302 1	0.000 2	1.000 1	0.000 1
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
Minkowski 34D Inst.	0.203 5	0.369 4	0.134 5	0.078 5	0.706 4	0.382 4	0.693 3	0.845 3	0.221 5	0.150 4	0.158 4	0.000 3	0.746 2	0.369 4	0.545 4	0.595 2	0.387 4	0.997 3	0.413 5	0.720 5	0.636 2	0.165 3	0.732 3	0.070 4	0.851 4	0.402 4	0.251 4	0.313 4	0.123 4	0.583 4	0.696 3	0.000 3	0.051 5	0.500 2	0.000 3	0.500 4	0.372 5	0.667 4	0.009 4	0.000 3	0.307 5	0.003 4	0.479 4	0.107 5	0.226 5	0.903 4	0.109 5	0.031 3	0.981 3	0.726 5	0.000 2	0.522 5	0.669 2	0.282 5	0.052 5	0.778 5	0.000 4	0.000 3	0.400 3	0.074 4	0.333 4	0.218 4	1.000 1	0.000 1	0.250 3	0.406 5	0.118 5	0.317 2	0.100 3	0.000 2	0.191 1	0.596 2	0.000 3	0.000 2	0.000 1	0.000 2	0.000 3	0.500 1	0.178 5	0.701 2	0.000 5	0.000 3	0.522 5	0.018 5	0.000 2	0.000 1	0.000 3	0.060 4	0.000 1	0.000 3	0.033 5	0.000 3	0.000 3	0.000 4	0.000 2	0.281 3	0.100 2	0.000 5	0.090 4	0.133 4	0.000 1	0.422 5	0.050 4	0.000 2	0.000 1	0.200 3	0.000 5	0.000 1	0.000 3	0.000 3	0.000 1	0.000 4	0.123 4	0.677 2	0.021 4	0.000 4	0.500 1	0.000 1	0.500 4	0.442 2	0.125 5	0.000 1	0.000 3	0.000 3	0.000 3	0.000 2	0.000 3	0.056 4	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.200 5	0.000 1	0.143 5	0.000 1	0.000 3	0.250 5	0.000 1	0.511 4	0.000 1	0.000 1	0.286 3	0.083 4	0.396 2	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.025 4	0.300 2	0.000 3	0.371 3	0.070 2	0.000 4	0.385 3	0.000 5	0.000 2	0.000 1	0.000 5	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	0.000 2	0.200 2	0.000 2	0.000 2	0.000 2	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
CSC-Pretrain Inst.	0.209 4	0.361 5	0.157 4	0.085 4	0.700 5	0.248 5	0.634 5	0.776 5	0.322 2	0.135 5	0.103 5	0.000 3	0.524 5	0.364 5	0.618 2	0.592 3	0.381 5	0.997 3	0.589 4	0.747 4	0.340 5	0.109 5	0.768 2	0.059 5	0.702 5	0.448 2	0.188 5	0.149 5	0.091 5	0.636 3	0.573 5	0.000 3	0.246 3	0.500 2	0.000 3	0.450 5	0.405 3	0.667 4	0.006 5	0.000 3	0.356 4	0.007 3	0.506 2	0.420 3	0.340 3	0.667 5	0.294 2	0.004 4	0.571 4	0.748 2	0.000 2	1.000 1	0.573 4	0.502 4	0.094 4	0.807 3	0.000 4	0.000 3	0.400 3	0.000 5	0.278 5	0.228 3	1.000 1	0.000 1	0.115 5	0.432 4	0.198 3	0.050 5	0.125 2	0.000 2	0.000 5	0.573 3	0.000 3	0.000 2	0.000 1	0.000 2	0.000 3	0.125 4	0.312 4	0.610 3	0.221 1	0.000 3	0.667 4	0.050 4	0.000 2	0.000 1	0.000 3	0.032 5	0.000 1	0.000 3	0.083 3	0.000 3	0.000 3	0.000 4	0.000 2	0.220 4	0.000 5	0.125 3	0.000 5	0.111 5	0.000 1	0.667 2	0.200 3	0.000 2	0.000 1	0.000 4	0.110 3	0.000 1	0.000 3	0.000 3	0.000 1	0.000 4	0.053 5	0.500 4	0.000 5	0.000 4	0.500 1	0.000 1	0.500 4	0.333 4	0.500 4	0.000 1	0.000 3	0.000 3	0.000 3	0.000 2	0.000 3	0.000 5	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.600 2	0.000 1	0.364 2	0.000 1	0.000 3	0.750 1	0.000 1	0.833 1	0.000 1	0.000 1	0.143 5	0.000 5	0.396 2	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.021 5	0.221 4	0.000 3	0.093 5	0.055 4	0.451 2	0.677 2	0.125 2	0.000 2	0.000 1	0.028 4	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	0.000 2	0.050 4	0.000 2	0.000 2	0.000 2	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
LGround Inst.	0.246 3	0.413 3	0.170 3	0.130 3	0.754 3	0.541 3	0.682 4	0.903 1	0.264 4	0.164 2	0.234 3	0.000 3	0.681 4	0.452 3	0.464 5	0.541 4	0.399 3	1.000 1	0.637 2	0.772 3	0.588 4	0.190 2	0.589 5	0.081 3	0.857 3	0.426 3	0.373 3	0.318 3	0.135 2	0.690 2	0.653 4	0.000 3	0.159 4	0.500 2	0.000 3	0.581 3	0.387 4	1.000 1	0.046 3	0.000 3	0.402 3	0.003 5	0.455 5	0.196 4	0.571 2	1.000 1	0.270 3	0.003 5	0.530 5	0.748 3	0.000 2	0.744 4	0.575 3	0.511 3	0.112 3	0.815 2	0.067 3	0.000 3	0.400 3	0.167 3	0.667 3	0.241 2	1.000 1	0.000 1	0.208 4	0.660 3	0.125 4	0.317 2	0.000 5	0.000 2	0.100 2	0.561 4	0.000 3	0.000 2	0.000 1	0.000 2	1.000 1	0.500 1	0.344 2	0.568 4	0.167 3	0.000 3	0.706 3	0.068 3	0.000 2	0.000 1	0.000 3	0.063 3	0.000 1	0.000 3	0.056 4	0.000 3	0.000 3	0.500 2	0.000 2	0.143 5	0.017 4	0.125 3	0.097 2	0.164 3	0.000 1	0.582 4	0.400 1	0.000 2	0.000 1	0.000 4	0.083 4	0.000 1	0.000 3	0.000 3	0.000 1	0.025 3	0.156 3	0.533 3	0.250 2	0.200 2	0.500 1	0.000 1	1.000 1	0.333 4	1.000 1	0.000 1	0.000 3	0.000 3	0.000 3	0.000 2	0.000 3	0.333 2	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.400 3	0.000 1	0.364 2	0.000 1	0.000 3	0.500 3	0.000 1	0.511 4	0.000 1	0.000 1	0.286 3	0.333 2	0.000 5	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.034 3	0.111 5	0.000 3	0.333 4	0.031 5	0.000 4	0.750 1	0.125 2	0.000 2	0.000 1	0.151 2	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	0.000 2	0.000 5	0.000 2	0.000 2	0.000 2	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild.

ScanNet Benchmark

This table lists the benchmark results for the 3D semantic label scenario.

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

PTv3-PPT-ALC	0.798 1	0.911 11	0.812 22	0.854 7	0.770 12	0.856 15	0.555 16	0.943 1	0.660 25	0.735 2	0.979 1	0.606 7	0.492 1	0.792 4	0.934 4	0.841 2	0.819 5	0.716 9	0.947 10	0.906 1	0.822 1
Guangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum: ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding. arxiv
DITR ScanNet	0.797 2	0.727 76	0.869 1	0.882 1	0.785 6	0.868 7	0.578 5	0.943 1	0.744 1	0.727 3	0.979 1	0.627 2	0.364 9	0.824 1	0.949 2	0.779 14	0.844 1	0.757 1	0.982 1	0.905 2	0.802 3
Karim Abou Zeid, Kadir Yilmaz, Daan de Geus, Alexander Hermans, David Adrian, Timm Linder, Bastian Leibe: DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation.
PTv3 ScanNet	0.794 3	0.941 3	0.813 21	0.851 10	0.782 7	0.890 2	0.597 1	0.916 5	0.696 10	0.713 5	0.979 1	0.635 1	0.384 3	0.793 3	0.907 10	0.821 5	0.790 35	0.696 14	0.967 4	0.903 3	0.805 2
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
PonderV2	0.785 4	0.978 1	0.800 30	0.833 28	0.788 4	0.853 20	0.545 20	0.910 8	0.713 3	0.705 6	0.979 1	0.596 9	0.390 2	0.769 15	0.832 45	0.821 5	0.792 34	0.730 2	0.975 2	0.897 6	0.785 7
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
Mix3D	0.781 5	0.964 2	0.855 2	0.843 19	0.781 8	0.858 13	0.575 8	0.831 37	0.685 16	0.714 4	0.979 1	0.594 10	0.310 29	0.801 2	0.892 19	0.841 2	0.819 5	0.723 6	0.940 15	0.887 8	0.725 28
Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann: Mix3D: Out-of-Context Data Augmentation for 3D Scenes. 3DV 2021 (Oral)
Swin3D	0.779 6	0.861 23	0.818 16	0.836 25	0.790 3	0.875 4	0.576 7	0.905 9	0.704 7	0.739 1	0.969 12	0.611 3	0.349 12	0.756 25	0.958 1	0.702 50	0.805 18	0.708 10	0.916 38	0.898 5	0.801 4

TTT-KD	0.773 7	0.646 96	0.818 16	0.809 40	0.774 10	0.878 3	0.581 3	0.943 1	0.687 14	0.704 7	0.978 6	0.607 6	0.336 18	0.775 11	0.912 8	0.838 4	0.823 3	0.694 15	0.967 4	0.899 4	0.794 6
Lisa Weijler, Muhammad Jehanzeb Mirza, Leon Sick, Can Ekkazan, Pedro Hermosilla: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models.
ResLFE_HDS	0.772 8	0.939 4	0.824 7	0.854 7	0.771 11	0.840 34	0.564 12	0.900 11	0.686 15	0.677 14	0.961 18	0.537 35	0.348 13	0.769 15	0.903 12	0.785 12	0.815 8	0.676 26	0.939 16	0.880 13	0.772 11

OctFormer	0.766 9	0.925 7	0.808 26	0.849 12	0.786 5	0.846 30	0.566 11	0.876 18	0.690 12	0.674 16	0.960 19	0.576 21	0.226 71	0.753 27	0.904 11	0.777 15	0.815 8	0.722 7	0.923 31	0.877 16	0.776 10
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
PPT-SpUNet-Joint	0.766 9	0.932 5	0.794 36	0.829 30	0.751 26	0.854 18	0.540 24	0.903 10	0.630 38	0.672 17	0.963 16	0.565 25	0.357 10	0.788 5	0.900 14	0.737 30	0.802 19	0.685 20	0.950 8	0.887 8	0.780 8
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OccuSeg+Semantic	0.764 11	0.758 61	0.796 34	0.839 23	0.746 30	0.907 1	0.562 13	0.850 28	0.680 18	0.672 17	0.978 6	0.610 4	0.335 20	0.777 9	0.819 49	0.847 1	0.830 2	0.691 17	0.972 3	0.885 10	0.727 26

CU-Hybrid Net	0.764 11	0.924 8	0.819 14	0.840 22	0.757 21	0.853 20	0.580 4	0.848 29	0.709 5	0.643 27	0.958 23	0.587 15	0.295 37	0.753 27	0.884 23	0.758 22	0.815 8	0.725 5	0.927 27	0.867 27	0.743 19

O-CNN	0.762 13	0.924 8	0.823 8	0.844 18	0.770 12	0.852 22	0.577 6	0.847 31	0.711 4	0.640 31	0.958 23	0.592 11	0.217 77	0.762 20	0.888 20	0.758 22	0.813 12	0.726 4	0.932 25	0.868 26	0.744 18
Peng-Shuai Wang, Yang Liu, Yu-Xiao Guo, Chun-Yu Sun, Xin Tong: O-CNN: Octree-based Convolutional Neural Networks for 3D Shape Analysis. SIGGRAPH 2017
DiffSegNet	0.758 14	0.725 78	0.789 41	0.843 19	0.762 17	0.856 15	0.562 13	0.920 4	0.657 28	0.658 21	0.958 23	0.589 13	0.337 17	0.782 6	0.879 24	0.787 10	0.779 40	0.678 22	0.926 29	0.880 13	0.799 5

DTC	0.757 15	0.843 29	0.820 12	0.847 15	0.791 2	0.862 11	0.511 37	0.870 21	0.707 6	0.652 23	0.954 40	0.604 8	0.279 47	0.760 21	0.942 3	0.734 31	0.766 49	0.701 13	0.884 60	0.874 22	0.736 20

OA-CNN-L_ScanNet20	0.756 16	0.783 47	0.826 6	0.858 5	0.776 9	0.837 38	0.548 19	0.896 14	0.649 30	0.675 15	0.962 17	0.586 16	0.335 20	0.771 14	0.802 54	0.770 18	0.787 37	0.691 17	0.936 20	0.880 13	0.761 13

PNE	0.755 17	0.786 45	0.835 5	0.834 27	0.758 19	0.849 25	0.570 10	0.836 36	0.648 31	0.668 19	0.978 6	0.581 19	0.367 7	0.683 38	0.856 33	0.804 7	0.801 23	0.678 22	0.961 6	0.889 7	0.716 34
P. Hermosilla: Point Neighborhood Embeddings.
LSK3DNet	0.755 17	0.899 16	0.823 8	0.843 19	0.764 16	0.838 37	0.584 2	0.845 32	0.717 2	0.638 33	0.956 30	0.580 20	0.229 70	0.640 47	0.900 14	0.750 25	0.813 12	0.729 3	0.920 35	0.872 24	0.757 14
Tuo Feng, Wenguan Wang, Fan Ma, Yi Yang: LSK3DNet: Towards Effective and Efficient 3D Perception with Large Sparse Kernels. CVPR 2024
ConDaFormer	0.755 17	0.927 6	0.822 10	0.836 25	0.801 1	0.849 25	0.516 34	0.864 25	0.651 29	0.680 13	0.958 23	0.584 18	0.282 44	0.759 23	0.855 35	0.728 33	0.802 19	0.678 22	0.880 65	0.873 23	0.756 16
Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Guisong Xia, Dacheng Tao: ConDaFormer : Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding. Neurips, 2023
PointTransformerV2	0.752 20	0.742 68	0.809 25	0.872 2	0.758 19	0.860 12	0.552 17	0.891 16	0.610 45	0.687 8	0.960 19	0.559 29	0.304 32	0.766 18	0.926 6	0.767 19	0.797 27	0.644 37	0.942 13	0.876 19	0.722 30
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao: Point Transformer V2: Grouped Vector Attention and Partition-based Pooling. NeurIPS 2022
DMF-Net	0.752 20	0.906 14	0.793 38	0.802 46	0.689 44	0.825 51	0.556 15	0.867 22	0.681 17	0.602 49	0.960 19	0.555 31	0.365 8	0.779 8	0.859 30	0.747 26	0.795 31	0.717 8	0.917 37	0.856 35	0.764 12
C.Yang, Y.Yan, W.Zhao, J.Ye, X.Yang, A.Hussain, B.Dong, K.Huang: Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic Segmentation. ICONIP 2023
BPNet	0.749 22	0.909 12	0.818 16	0.811 38	0.752 24	0.839 36	0.485 52	0.842 33	0.673 20	0.644 26	0.957 28	0.528 41	0.305 31	0.773 12	0.859 30	0.788 9	0.818 7	0.693 16	0.916 38	0.856 35	0.723 29
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
PointConvFormer	0.749 22	0.793 43	0.790 39	0.807 42	0.750 28	0.856 15	0.524 30	0.881 17	0.588 57	0.642 30	0.977 10	0.591 12	0.274 50	0.781 7	0.929 5	0.804 7	0.796 28	0.642 38	0.947 10	0.885 10	0.715 35
Wenxuan Wu, Qi Shan, Li Fuxin: PointConvFormer: Revenge of the Point-based Convolution.
MSP	0.748 24	0.623 99	0.804 28	0.859 4	0.745 31	0.824 53	0.501 41	0.912 7	0.690 12	0.685 10	0.956 30	0.567 24	0.320 26	0.768 17	0.918 7	0.720 38	0.802 19	0.676 26	0.921 33	0.881 12	0.779 9

StratifiedFormer	0.747 25	0.901 15	0.803 29	0.845 17	0.757 21	0.846 30	0.512 36	0.825 40	0.696 10	0.645 25	0.956 30	0.576 21	0.262 61	0.744 33	0.861 29	0.742 28	0.770 47	0.705 11	0.899 50	0.860 32	0.734 21
Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia: Stratified Transformer for 3D Point Cloud Segmentation. CVPR 2022
VMNet	0.746 26	0.870 21	0.838 3	0.858 5	0.729 36	0.850 24	0.501 41	0.874 19	0.587 58	0.658 21	0.956 30	0.564 26	0.299 34	0.765 19	0.900 14	0.716 41	0.812 14	0.631 43	0.939 16	0.858 33	0.709 36
Zeyu HU, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai: VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation. ICCV 2021 (Oral)
Virtual MVFusion	0.746 26	0.771 55	0.819 14	0.848 14	0.702 42	0.865 10	0.397 89	0.899 12	0.699 8	0.664 20	0.948 61	0.588 14	0.330 22	0.746 32	0.851 39	0.764 20	0.796 28	0.704 12	0.935 21	0.866 28	0.728 24
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
DiffSeg3D2	0.745 28	0.725 78	0.814 20	0.837 24	0.751 26	0.831 45	0.514 35	0.896 14	0.674 19	0.684 11	0.960 19	0.564 26	0.303 33	0.773 12	0.820 48	0.713 44	0.798 26	0.690 19	0.923 31	0.875 20	0.757 14

Retro-FPN	0.744 29	0.842 30	0.800 30	0.767 60	0.740 32	0.836 40	0.541 22	0.914 6	0.672 21	0.626 37	0.958 23	0.552 32	0.272 52	0.777 9	0.886 22	0.696 51	0.801 23	0.674 29	0.941 14	0.858 33	0.717 32
Peng Xiang, Xin Wen, Yu-Shen Liu, Hui Zhang, Yi Fang, Zhizhong Han: Retrospective Feature Pyramid Network for Point Cloud Semantic Segmentation. ICCV 2023
EQ-Net	0.743 30	0.620 100	0.799 33	0.849 12	0.730 35	0.822 55	0.493 49	0.897 13	0.664 22	0.681 12	0.955 34	0.562 28	0.378 4	0.760 21	0.903 12	0.738 29	0.801 23	0.673 30	0.907 42	0.877 16	0.745 17
Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya JIa: A Unified Query-based Paradigm for Point Cloud Understanding. CVPR 2022
SAT	0.742 31	0.860 24	0.765 55	0.819 33	0.769 14	0.848 27	0.533 26	0.829 38	0.663 23	0.631 36	0.955 34	0.586 16	0.274 50	0.753 27	0.896 17	0.729 32	0.760 55	0.666 32	0.921 33	0.855 37	0.733 22

LRPNet	0.742 31	0.816 38	0.806 27	0.807 42	0.752 24	0.828 49	0.575 8	0.839 35	0.699 8	0.637 34	0.954 40	0.520 44	0.320 26	0.755 26	0.834 43	0.760 21	0.772 44	0.676 26	0.915 40	0.862 30	0.717 32

LargeKernel3D	0.739 33	0.909 12	0.820 12	0.806 44	0.740 32	0.852 22	0.545 20	0.826 39	0.594 56	0.643 27	0.955 34	0.541 34	0.263 60	0.723 36	0.858 32	0.775 17	0.767 48	0.678 22	0.933 23	0.848 42	0.694 41
Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia: LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs. CVPR 2023
RPN	0.736 34	0.776 51	0.790 39	0.851 10	0.754 23	0.854 18	0.491 51	0.866 23	0.596 55	0.686 9	0.955 34	0.536 36	0.342 15	0.624 54	0.869 26	0.787 10	0.802 19	0.628 44	0.927 27	0.875 20	0.704 38

MinkowskiNet	0.736 34	0.859 25	0.818 16	0.832 29	0.709 40	0.840 34	0.521 32	0.853 27	0.660 25	0.643 27	0.951 51	0.544 33	0.286 42	0.731 34	0.893 18	0.675 59	0.772 44	0.683 21	0.874 71	0.852 40	0.727 26
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
IPCA	0.731 36	0.890 17	0.837 4	0.864 3	0.726 37	0.873 5	0.530 29	0.824 41	0.489 91	0.647 24	0.978 6	0.609 5	0.336 18	0.624 54	0.733 63	0.758 22	0.776 42	0.570 69	0.949 9	0.877 16	0.728 24

online3d	0.727 37	0.715 83	0.777 48	0.854 7	0.748 29	0.858 13	0.497 46	0.872 20	0.572 64	0.639 32	0.957 28	0.523 42	0.297 36	0.750 30	0.803 53	0.744 27	0.810 15	0.587 65	0.938 18	0.871 25	0.719 31

SparseConvNet	0.725 38	0.647 95	0.821 11	0.846 16	0.721 38	0.869 6	0.533 26	0.754 62	0.603 51	0.614 41	0.955 34	0.572 23	0.325 24	0.710 37	0.870 25	0.724 36	0.823 3	0.628 44	0.934 22	0.865 29	0.683 44

PointTransformer++	0.725 38	0.727 76	0.811 24	0.819 33	0.765 15	0.841 33	0.502 40	0.814 46	0.621 41	0.623 39	0.955 34	0.556 30	0.284 43	0.620 56	0.866 27	0.781 13	0.757 59	0.648 35	0.932 25	0.862 30	0.709 36

MatchingNet	0.724 40	0.812 40	0.812 22	0.810 39	0.735 34	0.834 42	0.495 48	0.860 26	0.572 64	0.602 49	0.954 40	0.512 46	0.280 46	0.757 24	0.845 41	0.725 35	0.780 39	0.606 54	0.937 19	0.851 41	0.700 40

INS-Conv-semantic	0.717 41	0.751 64	0.759 58	0.812 37	0.704 41	0.868 7	0.537 25	0.842 33	0.609 47	0.608 45	0.953 44	0.534 38	0.293 38	0.616 57	0.864 28	0.719 40	0.793 32	0.640 39	0.933 23	0.845 46	0.663 49

PointMetaBase	0.714 42	0.835 31	0.785 43	0.821 31	0.684 46	0.846 30	0.531 28	0.865 24	0.614 42	0.596 53	0.953 44	0.500 49	0.246 66	0.674 39	0.888 20	0.692 52	0.764 51	0.624 46	0.849 86	0.844 47	0.675 46

contrastBoundary	0.705 43	0.769 58	0.775 49	0.809 40	0.687 45	0.820 58	0.439 77	0.812 47	0.661 24	0.591 55	0.945 69	0.515 45	0.171 96	0.633 51	0.856 33	0.720 38	0.796 28	0.668 31	0.889 57	0.847 43	0.689 42
Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao: Contrastive Boundary Learning for Point Cloud Segmentation. CVPR2022
ClickSeg_Semantic	0.703 44	0.774 53	0.800 30	0.793 51	0.760 18	0.847 29	0.471 56	0.802 50	0.463 98	0.634 35	0.968 14	0.491 52	0.271 54	0.726 35	0.910 9	0.706 46	0.815 8	0.551 81	0.878 66	0.833 48	0.570 81

RFCR	0.702 45	0.889 18	0.745 68	0.813 36	0.672 49	0.818 62	0.493 49	0.815 45	0.623 39	0.610 43	0.947 63	0.470 61	0.249 65	0.594 61	0.848 40	0.705 47	0.779 40	0.646 36	0.892 55	0.823 54	0.611 64
Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma: Omni-Supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning. CVPR2021
One Thing One Click	0.701 46	0.825 35	0.796 34	0.723 67	0.716 39	0.832 44	0.433 79	0.816 43	0.634 36	0.609 44	0.969 12	0.418 87	0.344 14	0.559 73	0.833 44	0.715 42	0.808 17	0.560 75	0.902 47	0.847 43	0.680 45

JSENet	0.699 47	0.881 20	0.762 56	0.821 31	0.667 50	0.800 75	0.522 31	0.792 53	0.613 43	0.607 46	0.935 89	0.492 51	0.205 83	0.576 66	0.853 37	0.691 53	0.758 57	0.652 34	0.872 74	0.828 51	0.649 53
Zeyu HU, Mingmin Zhen, Xuyang BAI, Hongbo Fu, Chiew-lan Tai: JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D Point Clouds. ECCV 2020
One-Thing-One-Click	0.693 48	0.743 67	0.794 36	0.655 90	0.684 46	0.822 55	0.497 46	0.719 72	0.622 40	0.617 40	0.977 10	0.447 74	0.339 16	0.750 30	0.664 80	0.703 49	0.790 35	0.596 58	0.946 12	0.855 37	0.647 54
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
PicassoNet-II	0.692 49	0.732 72	0.772 50	0.786 52	0.677 48	0.866 9	0.517 33	0.848 29	0.509 84	0.626 37	0.952 49	0.536 36	0.225 73	0.545 79	0.704 70	0.689 56	0.810 15	0.564 74	0.903 46	0.854 39	0.729 23
Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian: Geometric feature learning for 3D meshes.
Feature_GeometricNet	0.690 50	0.884 19	0.754 62	0.795 49	0.647 57	0.818 62	0.422 81	0.802 50	0.612 44	0.604 47	0.945 69	0.462 64	0.189 91	0.563 72	0.853 37	0.726 34	0.765 50	0.632 42	0.904 44	0.821 57	0.606 68
Kangcheng Liu, Ben M. Chen: https://arxiv.org/abs/2012.09439. arXiv Preprint
FusionNet	0.688 51	0.704 85	0.741 72	0.754 64	0.656 52	0.829 47	0.501 41	0.741 67	0.609 47	0.548 62	0.950 55	0.522 43	0.371 5	0.633 51	0.756 58	0.715 42	0.771 46	0.623 47	0.861 82	0.814 60	0.658 50
Feihu Zhang, Jin Fang, Benjamin Wah, Philip Torr: Deep FusionNet for Point Cloud Semantic Segmentation. ECCV 2020
Feature-Geometry Net	0.685 52	0.866 22	0.748 65	0.819 33	0.645 59	0.794 78	0.450 67	0.802 50	0.587 58	0.604 47	0.945 69	0.464 63	0.201 86	0.554 75	0.840 42	0.723 37	0.732 70	0.602 56	0.907 42	0.822 56	0.603 71

VACNN++	0.684 53	0.728 75	0.757 61	0.776 57	0.690 43	0.804 73	0.464 61	0.816 43	0.577 63	0.587 56	0.945 69	0.508 48	0.276 49	0.671 40	0.710 68	0.663 64	0.750 63	0.589 63	0.881 63	0.832 50	0.653 52

KP-FCNN	0.684 53	0.847 28	0.758 60	0.784 54	0.647 57	0.814 65	0.473 55	0.772 56	0.605 49	0.594 54	0.935 89	0.450 72	0.181 94	0.587 62	0.805 52	0.690 54	0.785 38	0.614 50	0.882 62	0.819 58	0.632 60
H. Thomas, C. Qi, J. Deschaud, B. Marcotegui, F. Goulette, L. Guibas.: KPConv: Flexible and Deformable Convolution for Point Clouds. ICCV 2019
DGNet	0.684 53	0.712 84	0.784 44	0.782 56	0.658 51	0.835 41	0.499 45	0.823 42	0.641 33	0.597 52	0.950 55	0.487 54	0.281 45	0.575 67	0.619 84	0.647 72	0.764 51	0.620 49	0.871 77	0.846 45	0.688 43

PointContrast_LA_SEM	0.683 56	0.757 62	0.784 44	0.786 52	0.639 61	0.824 53	0.408 84	0.775 55	0.604 50	0.541 64	0.934 93	0.532 39	0.269 56	0.552 76	0.777 56	0.645 75	0.793 32	0.640 39	0.913 41	0.824 53	0.671 47

Superpoint Network	0.683 56	0.851 27	0.728 76	0.800 48	0.653 54	0.806 71	0.468 58	0.804 48	0.572 64	0.602 49	0.946 66	0.453 71	0.239 69	0.519 84	0.822 46	0.689 56	0.762 54	0.595 60	0.895 53	0.827 52	0.630 61

VI-PointConv	0.676 58	0.770 57	0.754 62	0.783 55	0.621 65	0.814 65	0.552 17	0.758 60	0.571 67	0.557 60	0.954 40	0.529 40	0.268 58	0.530 82	0.682 74	0.675 59	0.719 73	0.603 55	0.888 58	0.833 48	0.665 48
Xingyi Li, Wenxuan Wu, Xiaoli Z. Fern, Li Fuxin: The Devils in the Point Clouds: Studying the Robustness of Point Cloud Convolutions.
ROSMRF3D	0.673 59	0.789 44	0.748 65	0.763 62	0.635 63	0.814 65	0.407 86	0.747 64	0.581 62	0.573 57	0.950 55	0.484 55	0.271 54	0.607 58	0.754 59	0.649 69	0.774 43	0.596 58	0.883 61	0.823 54	0.606 68

SALANet	0.670 60	0.816 38	0.770 53	0.768 59	0.652 55	0.807 70	0.451 64	0.747 64	0.659 27	0.545 63	0.924 99	0.473 60	0.149 106	0.571 69	0.811 51	0.635 79	0.746 64	0.623 47	0.892 55	0.794 73	0.570 81

O3DSeg	0.668 61	0.822 36	0.771 52	0.496 110	0.651 56	0.833 43	0.541 22	0.761 59	0.555 73	0.611 42	0.966 15	0.489 53	0.370 6	0.388 103	0.580 87	0.776 16	0.751 61	0.570 69	0.956 7	0.817 59	0.646 55

PointConv	0.666 62	0.781 48	0.759 58	0.699 75	0.644 60	0.822 55	0.475 54	0.779 54	0.564 70	0.504 81	0.953 44	0.428 81	0.203 85	0.586 64	0.754 59	0.661 65	0.753 60	0.588 64	0.902 47	0.813 62	0.642 56
Wenxuan Wu, Zhongang Qi, Li Fuxin: PointConv: Deep Convolutional Networks on 3D Point Clouds. CVPR 2019
PointASNL	0.666 62	0.703 86	0.781 46	0.751 66	0.655 53	0.830 46	0.471 56	0.769 57	0.474 94	0.537 66	0.951 51	0.475 59	0.279 47	0.635 49	0.698 73	0.675 59	0.751 61	0.553 80	0.816 93	0.806 64	0.703 39
Xu Yan, Chaoda Zheng, Zhen Li, Sheng Wang, Shuguang Cui: PointASNL: Robust Point Clouds Processing using Nonlocal Neural Networks with Adaptive Sampling. CVPR 2020
PPCNN++	0.663 64	0.746 65	0.708 79	0.722 68	0.638 62	0.820 58	0.451 64	0.566 100	0.599 53	0.541 64	0.950 55	0.510 47	0.313 28	0.648 45	0.819 49	0.616 84	0.682 88	0.590 62	0.869 78	0.810 63	0.656 51
Pyunghwan Ahn, Juyoung Yang, Eojindl Yi, Chanho Lee, Junmo Kim: Projection-based Point Convolution for Efficient Point Cloud Segmentation. IEEE Access
DCM-Net	0.658 65	0.778 49	0.702 82	0.806 44	0.619 66	0.813 68	0.468 58	0.693 80	0.494 87	0.524 72	0.941 81	0.449 73	0.298 35	0.510 86	0.821 47	0.675 59	0.727 72	0.568 72	0.826 91	0.803 66	0.637 58
Jonas Schult, Francis Engelmann, Theodora Kontogianni, Bastian Leibe: DualConvMesh-Net: Joint Geodesic and Euclidean Convolutions on 3D Meshes. CVPR 2020 [Oral]
HPGCNN	0.656 66	0.698 88	0.743 70	0.650 91	0.564 83	0.820 58	0.505 39	0.758 60	0.631 37	0.479 85	0.945 69	0.480 57	0.226 71	0.572 68	0.774 57	0.690 54	0.735 68	0.614 50	0.853 85	0.776 88	0.597 74
Jisheng Dang, Qingyong Hu, Yulan Guo, Jun Yang: HPGCNN.
SAFNet-seg	0.654 67	0.752 63	0.734 74	0.664 88	0.583 78	0.815 64	0.399 88	0.754 62	0.639 34	0.535 68	0.942 79	0.470 61	0.309 30	0.665 41	0.539 90	0.650 68	0.708 78	0.635 41	0.857 84	0.793 75	0.642 56
Linqing Zhao, Jiwen Lu, Jie Zhou: Similarity-Aware Fusion Network for 3D Semantic Segmentation. IROS 2021
RandLA-Net	0.645 68	0.778 49	0.731 75	0.699 75	0.577 79	0.829 47	0.446 69	0.736 68	0.477 93	0.523 74	0.945 69	0.454 68	0.269 56	0.484 93	0.749 62	0.618 82	0.738 66	0.599 57	0.827 90	0.792 78	0.621 63

MVPNet	0.641 69	0.831 32	0.715 77	0.671 85	0.590 74	0.781 84	0.394 90	0.679 82	0.642 32	0.553 61	0.937 86	0.462 64	0.256 62	0.649 44	0.406 103	0.626 80	0.691 85	0.666 32	0.877 67	0.792 78	0.608 67
Maximilian Jaritz, Jiayuan Gu, Hao Su: Multi-view PointNet for 3D Scene Understanding. GMDL Workshop, ICCV 2019
PointConv-SFPN	0.641 69	0.776 51	0.703 81	0.721 69	0.557 86	0.826 50	0.451 64	0.672 85	0.563 71	0.483 84	0.943 78	0.425 84	0.162 101	0.644 46	0.726 64	0.659 66	0.709 77	0.572 68	0.875 69	0.786 83	0.559 87

PointMRNet	0.640 71	0.717 82	0.701 83	0.692 78	0.576 80	0.801 74	0.467 60	0.716 73	0.563 71	0.459 91	0.953 44	0.429 80	0.169 98	0.581 65	0.854 36	0.605 85	0.710 75	0.550 82	0.894 54	0.793 75	0.575 79

FPConv	0.639 72	0.785 46	0.760 57	0.713 73	0.603 69	0.798 76	0.392 92	0.534 105	0.603 51	0.524 72	0.948 61	0.457 66	0.250 64	0.538 80	0.723 66	0.598 89	0.696 83	0.614 50	0.872 74	0.799 68	0.567 84
Yiqun Lin, Zizheng Yan, Haibin Huang, Dong Du, Ligang Liu, Shuguang Cui, Xiaoguang Han: FPConv: Learning Local Flattening for Point Convolution. CVPR 2020
PD-Net	0.638 73	0.797 42	0.769 54	0.641 96	0.590 74	0.820 58	0.461 62	0.537 104	0.637 35	0.536 67	0.947 63	0.388 94	0.206 82	0.656 42	0.668 78	0.647 72	0.732 70	0.585 66	0.868 79	0.793 75	0.473 107

PointSPNet	0.637 74	0.734 71	0.692 90	0.714 72	0.576 80	0.797 77	0.446 69	0.743 66	0.598 54	0.437 96	0.942 79	0.403 90	0.150 105	0.626 53	0.800 55	0.649 69	0.697 82	0.557 78	0.846 87	0.777 87	0.563 85

SConv	0.636 75	0.830 33	0.697 86	0.752 65	0.572 82	0.780 86	0.445 71	0.716 73	0.529 77	0.530 69	0.951 51	0.446 75	0.170 97	0.507 88	0.666 79	0.636 78	0.682 88	0.541 88	0.886 59	0.799 68	0.594 75

Supervoxel-CNN	0.635 76	0.656 93	0.711 78	0.719 70	0.613 67	0.757 95	0.444 74	0.765 58	0.534 76	0.566 58	0.928 97	0.478 58	0.272 52	0.636 48	0.531 92	0.664 63	0.645 98	0.508 96	0.864 81	0.792 78	0.611 64

joint point-based	0.634 77	0.614 101	0.778 47	0.667 87	0.633 64	0.825 51	0.420 82	0.804 48	0.467 96	0.561 59	0.951 51	0.494 50	0.291 39	0.566 70	0.458 98	0.579 95	0.764 51	0.559 77	0.838 88	0.814 60	0.598 73
Hung-Yueh Chiang, Yen-Liang Lin, Yueh-Cheng Liu, Winston H. Hsu: A Unified Point-Based Framework for 3D Segmentation. 3DV 2019
PointMTL	0.632 78	0.731 73	0.688 93	0.675 82	0.591 73	0.784 83	0.444 74	0.565 101	0.610 45	0.492 82	0.949 59	0.456 67	0.254 63	0.587 62	0.706 69	0.599 88	0.665 94	0.612 53	0.868 79	0.791 81	0.579 78

PointNet2-SFPN	0.631 79	0.771 55	0.692 90	0.672 83	0.524 92	0.837 38	0.440 76	0.706 78	0.538 75	0.446 93	0.944 75	0.421 86	0.219 76	0.552 76	0.751 61	0.591 91	0.737 67	0.543 87	0.901 49	0.768 90	0.557 88

3DSM_DMMF	0.631 79	0.626 98	0.745 68	0.801 47	0.607 68	0.751 96	0.506 38	0.729 71	0.565 69	0.491 83	0.866 113	0.434 76	0.197 89	0.595 60	0.630 83	0.709 45	0.705 80	0.560 75	0.875 69	0.740 98	0.491 102

APCF-Net	0.631 79	0.742 68	0.687 95	0.672 83	0.557 86	0.792 81	0.408 84	0.665 87	0.545 74	0.508 78	0.952 49	0.428 81	0.186 92	0.634 50	0.702 71	0.620 81	0.706 79	0.555 79	0.873 72	0.798 70	0.581 77
Haojia, Lin: Adaptive Pyramid Context Fusion for Point Cloud Perception. GRSL
FusionAwareConv	0.630 82	0.604 103	0.741 72	0.766 61	0.590 74	0.747 97	0.501 41	0.734 69	0.503 86	0.527 70	0.919 103	0.454 68	0.323 25	0.550 78	0.420 102	0.678 58	0.688 86	0.544 85	0.896 52	0.795 72	0.627 62
Jiazhao Zhang, Chenyang Zhu, Lintao Zheng, Kai Xu: Fusion-Aware Point Convolution for Online Semantic 3D Scene Segmentation. CVPR 2020
DenSeR	0.628 83	0.800 41	0.625 105	0.719 70	0.545 89	0.806 71	0.445 71	0.597 95	0.448 101	0.519 76	0.938 85	0.481 56	0.328 23	0.489 92	0.499 97	0.657 67	0.759 56	0.592 61	0.881 63	0.797 71	0.634 59

SegGroup_sem	0.627 84	0.818 37	0.747 67	0.701 74	0.602 70	0.764 92	0.385 96	0.629 92	0.490 89	0.508 78	0.931 96	0.409 89	0.201 86	0.564 71	0.725 65	0.618 82	0.692 84	0.539 89	0.873 72	0.794 73	0.548 91
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
SIConv	0.625 85	0.830 33	0.694 88	0.757 63	0.563 84	0.772 90	0.448 68	0.647 90	0.520 80	0.509 77	0.949 59	0.431 79	0.191 90	0.496 90	0.614 85	0.647 72	0.672 92	0.535 92	0.876 68	0.783 84	0.571 80

Weakly-Openseg v3	0.625 85	0.924 8	0.787 42	0.620 98	0.555 88	0.811 69	0.393 91	0.666 86	0.382 109	0.520 75	0.953 44	0.250 113	0.208 80	0.604 59	0.670 76	0.644 76	0.742 65	0.538 90	0.919 36	0.803 66	0.513 99

dtc_net	0.625 85	0.703 86	0.751 64	0.794 50	0.535 90	0.848 27	0.480 53	0.676 84	0.528 78	0.469 88	0.944 75	0.454 68	0.004 118	0.464 95	0.636 82	0.704 48	0.758 57	0.548 84	0.924 30	0.787 82	0.492 101

HPEIN	0.618 88	0.729 74	0.668 96	0.647 93	0.597 72	0.766 91	0.414 83	0.680 81	0.520 80	0.525 71	0.946 66	0.432 77	0.215 78	0.493 91	0.599 86	0.638 77	0.617 103	0.570 69	0.897 51	0.806 64	0.605 70
Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi-Wing Fu, Jiaya Jia: Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation. ICCV 2019
SPH3D-GCN	0.610 89	0.858 26	0.772 50	0.489 111	0.532 91	0.792 81	0.404 87	0.643 91	0.570 68	0.507 80	0.935 89	0.414 88	0.046 115	0.510 86	0.702 71	0.602 87	0.705 80	0.549 83	0.859 83	0.773 89	0.534 94
Huan Lei, Naveed Akhtar, and Ajmal Mian: Spherical Kernel for Efficient Graph Convolution on 3D Point Clouds. TPAMI 2020
AttAN	0.609 90	0.760 60	0.667 97	0.649 92	0.521 93	0.793 79	0.457 63	0.648 89	0.528 78	0.434 98	0.947 63	0.401 91	0.153 104	0.454 96	0.721 67	0.648 71	0.717 74	0.536 91	0.904 44	0.765 91	0.485 103
Gege Zhang, Qinghua Ma, Licheng Jiao, Fang Liu and Qigong Sun: AttAN: Attention Adversarial Networks for 3D Point Cloud Semantic Segmentation. IJCAI2020
wsss-transformer	0.600 91	0.634 97	0.743 70	0.697 77	0.601 71	0.781 84	0.437 78	0.585 98	0.493 88	0.446 93	0.933 94	0.394 92	0.011 117	0.654 43	0.661 81	0.603 86	0.733 69	0.526 93	0.832 89	0.761 93	0.480 104

LAP-D	0.594 92	0.720 80	0.692 90	0.637 97	0.456 102	0.773 89	0.391 94	0.730 70	0.587 58	0.445 95	0.940 83	0.381 95	0.288 40	0.434 99	0.453 100	0.591 91	0.649 96	0.581 67	0.777 97	0.749 97	0.610 66

DPC	0.592 93	0.720 80	0.700 84	0.602 102	0.480 98	0.762 94	0.380 97	0.713 76	0.585 61	0.437 96	0.940 83	0.369 97	0.288 40	0.434 99	0.509 96	0.590 93	0.639 101	0.567 73	0.772 98	0.755 95	0.592 76
Francis Engelmann, Theodora Kontogianni, Bastian Leibe: Dilated Point Convolutions: On the Receptive Field Size of Point Convolutions on 3D Point Clouds. ICRA 2020
CCRFNet	0.589 94	0.766 59	0.659 100	0.683 80	0.470 101	0.740 99	0.387 95	0.620 94	0.490 89	0.476 86	0.922 101	0.355 100	0.245 67	0.511 85	0.511 95	0.571 96	0.643 99	0.493 100	0.872 74	0.762 92	0.600 72

ROSMRF	0.580 95	0.772 54	0.707 80	0.681 81	0.563 84	0.764 92	0.362 99	0.515 106	0.465 97	0.465 90	0.936 88	0.427 83	0.207 81	0.438 97	0.577 88	0.536 99	0.675 91	0.486 101	0.723 104	0.779 85	0.524 96

SD-DETR	0.576 96	0.746 65	0.609 109	0.445 115	0.517 94	0.643 110	0.366 98	0.714 75	0.456 99	0.468 89	0.870 112	0.432 77	0.264 59	0.558 74	0.674 75	0.586 94	0.688 86	0.482 102	0.739 102	0.733 100	0.537 93

SQN_0.1%	0.569 97	0.676 90	0.696 87	0.657 89	0.497 95	0.779 87	0.424 80	0.548 102	0.515 82	0.376 103	0.902 110	0.422 85	0.357 10	0.379 104	0.456 99	0.596 90	0.659 95	0.544 85	0.685 107	0.665 111	0.556 89

TextureNet	0.566 98	0.672 92	0.664 98	0.671 85	0.494 96	0.719 100	0.445 71	0.678 83	0.411 107	0.396 101	0.935 89	0.356 99	0.225 73	0.412 101	0.535 91	0.565 97	0.636 102	0.464 104	0.794 96	0.680 108	0.568 83
Jingwei Huang, Haotian Zhang, Li Yi, Thomas Funkerhouser, Matthias Niessner, Leonidas Guibas: TextureNet: Consistent Local Parametrizations for Learning from High-Resolution Signals on Meshes. CVPR
DVVNet	0.562 99	0.648 94	0.700 84	0.770 58	0.586 77	0.687 104	0.333 103	0.650 88	0.514 83	0.475 87	0.906 107	0.359 98	0.223 75	0.340 106	0.442 101	0.422 110	0.668 93	0.501 97	0.708 105	0.779 85	0.534 94

Pointnet++ & Feature	0.557 100	0.735 70	0.661 99	0.686 79	0.491 97	0.744 98	0.392 92	0.539 103	0.451 100	0.375 104	0.946 66	0.376 96	0.205 83	0.403 102	0.356 106	0.553 98	0.643 99	0.497 98	0.824 92	0.756 94	0.515 97

GMLPs	0.538 101	0.495 111	0.693 89	0.647 93	0.471 100	0.793 79	0.300 106	0.477 107	0.505 85	0.358 105	0.903 109	0.327 103	0.081 112	0.472 94	0.529 93	0.448 108	0.710 75	0.509 94	0.746 100	0.737 99	0.554 90

PanopticFusion-label	0.529 102	0.491 112	0.688 93	0.604 101	0.386 107	0.632 111	0.225 117	0.705 79	0.434 104	0.293 111	0.815 115	0.348 101	0.241 68	0.499 89	0.669 77	0.507 101	0.649 96	0.442 110	0.796 95	0.602 115	0.561 86
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
subcloud_weak	0.516 103	0.676 90	0.591 112	0.609 99	0.442 103	0.774 88	0.335 102	0.597 95	0.422 106	0.357 106	0.932 95	0.341 102	0.094 111	0.298 108	0.528 94	0.473 106	0.676 90	0.495 99	0.602 113	0.721 103	0.349 115

Online SegFusion	0.515 104	0.607 102	0.644 103	0.579 104	0.434 104	0.630 112	0.353 100	0.628 93	0.440 102	0.410 99	0.762 118	0.307 105	0.167 99	0.520 83	0.403 104	0.516 100	0.565 106	0.447 108	0.678 108	0.701 105	0.514 98
Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstroem, Cristian Sminchisescu, Luc van Gool: A Real-Time Learning Framework for Joint 3D Reconstruction and Semantic Segmentation. Robotics and Automation Letters Submission
3DMV, FTSDF	0.501 105	0.558 107	0.608 110	0.424 117	0.478 99	0.690 103	0.246 113	0.586 97	0.468 95	0.450 92	0.911 105	0.394 92	0.160 102	0.438 97	0.212 113	0.432 109	0.541 111	0.475 103	0.742 101	0.727 101	0.477 105

PCNN	0.498 106	0.559 106	0.644 103	0.560 106	0.420 106	0.711 102	0.229 115	0.414 108	0.436 103	0.352 107	0.941 81	0.324 104	0.155 103	0.238 113	0.387 105	0.493 102	0.529 112	0.509 94	0.813 94	0.751 96	0.504 100

3DMV	0.484 107	0.484 113	0.538 115	0.643 95	0.424 105	0.606 115	0.310 104	0.574 99	0.433 105	0.378 102	0.796 116	0.301 106	0.214 79	0.537 81	0.208 114	0.472 107	0.507 115	0.413 113	0.693 106	0.602 115	0.539 92
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
PointCNN with RGB	0.458 108	0.577 105	0.611 108	0.356 119	0.321 115	0.715 101	0.299 108	0.376 112	0.328 115	0.319 109	0.944 75	0.285 108	0.164 100	0.216 116	0.229 111	0.484 104	0.545 110	0.456 106	0.755 99	0.709 104	0.475 106
Yangyan Li, Rui Bu, Mingchao Sun, Baoquan Chen: PointCNN. NeurIPS 2018
FCPN	0.447 109	0.679 89	0.604 111	0.578 105	0.380 108	0.682 105	0.291 109	0.106 119	0.483 92	0.258 117	0.920 102	0.258 112	0.025 116	0.231 115	0.325 107	0.480 105	0.560 108	0.463 105	0.725 103	0.666 110	0.231 119
Dario Rethage, Johanna Wald, Jürgen Sturm, Nassir Navab, Federico Tombari: Fully-Convolutional Point Networks for Large-Scale Point Clouds. ECCV 2018
DGCNN_reproduce	0.446 110	0.474 114	0.623 106	0.463 113	0.366 110	0.651 108	0.310 104	0.389 111	0.349 113	0.330 108	0.937 86	0.271 110	0.126 108	0.285 109	0.224 112	0.350 115	0.577 105	0.445 109	0.625 111	0.723 102	0.394 111
Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E. Sarma, Michael M. Bronstein, Justin M. Solomon: Dynamic Graph CNN for Learning on Point Clouds. TOG 2019
PNET2	0.442 111	0.548 108	0.548 114	0.597 103	0.363 111	0.628 113	0.300 106	0.292 114	0.374 110	0.307 110	0.881 111	0.268 111	0.186 92	0.238 113	0.204 115	0.407 111	0.506 116	0.449 107	0.667 109	0.620 114	0.462 109

SurfaceConvPF	0.442 111	0.505 110	0.622 107	0.380 118	0.342 113	0.654 107	0.227 116	0.397 110	0.367 111	0.276 113	0.924 99	0.240 114	0.198 88	0.359 105	0.262 109	0.366 112	0.581 104	0.435 111	0.640 110	0.668 109	0.398 110
Hao Pan, Shilin Liu, Yang Liu, Xin Tong: Convolutional Neural Networks on 3D Surfaces Using Parallel Frames.
Tangent Convolutions	0.438 113	0.437 116	0.646 102	0.474 112	0.369 109	0.645 109	0.353 100	0.258 116	0.282 118	0.279 112	0.918 104	0.298 107	0.147 107	0.283 110	0.294 108	0.487 103	0.562 107	0.427 112	0.619 112	0.633 113	0.352 114
Maxim Tatarchenko, Jaesik Park, Vladlen Koltun, Qian-Yi Zhou: Tangent convolutions for dense prediction in 3d. CVPR 2018
3DWSSS	0.425 114	0.525 109	0.647 101	0.522 107	0.324 114	0.488 119	0.077 120	0.712 77	0.353 112	0.401 100	0.636 120	0.281 109	0.176 95	0.340 106	0.565 89	0.175 119	0.551 109	0.398 114	0.370 120	0.602 115	0.361 113

SPLAT Net	0.393 115	0.472 115	0.511 116	0.606 100	0.311 116	0.656 106	0.245 114	0.405 109	0.328 115	0.197 118	0.927 98	0.227 116	0.000 120	0.001 121	0.249 110	0.271 118	0.510 113	0.383 116	0.593 114	0.699 106	0.267 117
Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz: SPLATNet: Sparse Lattice Networks for Point Cloud Processing. CVPR 2018
ScanNet+FTSDF	0.383 116	0.297 118	0.491 117	0.432 116	0.358 112	0.612 114	0.274 111	0.116 118	0.411 107	0.265 114	0.904 108	0.229 115	0.079 113	0.250 111	0.185 116	0.320 116	0.510 113	0.385 115	0.548 115	0.597 118	0.394 111

PointNet++	0.339 117	0.584 104	0.478 118	0.458 114	0.256 118	0.360 120	0.250 112	0.247 117	0.278 119	0.261 116	0.677 119	0.183 117	0.117 109	0.212 117	0.145 118	0.364 113	0.346 120	0.232 120	0.548 115	0.523 119	0.252 118
Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas: pointnet++: deep hierarchical feature learning on point sets in a metric space.
GrowSP++	0.323 118	0.114 120	0.589 113	0.499 109	0.147 120	0.555 116	0.290 110	0.336 113	0.290 117	0.262 115	0.865 114	0.102 120	0.000 120	0.037 119	0.000 121	0.000 121	0.462 117	0.381 117	0.389 119	0.664 112	0.473 107

SSC-UNet	0.308 119	0.353 117	0.290 120	0.278 120	0.166 119	0.553 117	0.169 119	0.286 115	0.147 120	0.148 120	0.908 106	0.182 118	0.064 114	0.023 120	0.018 120	0.354 114	0.363 118	0.345 118	0.546 117	0.685 107	0.278 116

ScanNet	0.306 120	0.203 119	0.366 119	0.501 108	0.311 116	0.524 118	0.211 118	0.002 121	0.342 114	0.189 119	0.786 117	0.145 119	0.102 110	0.245 112	0.152 117	0.318 117	0.348 119	0.300 119	0.460 118	0.437 120	0.182 120
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17
ERROR	0.054 121	0.000 121	0.041 121	0.172 121	0.030 121	0.062 122	0.001 121	0.035 120	0.004 121	0.051 121	0.143 121	0.019 121	0.003 119	0.041 118	0.050 119	0.003 120	0.054 121	0.018 121	0.005 122	0.264 121	0.082 121

MVF-GNN	0.014 122	0.000 121	0.000 122	0.000 122	0.007 122	0.086 121	0.000 122	0.000 122	0.001 122	0.000 122	0.029 122	0.001 122	0.000 120	0.000 122	0.000 121	0.000 121	0.000 122	0.018 121	0.015 121	0.115 122	0.000 122

This table lists the benchmark results for the 3D semantic instance scenario.

Method	avg ap 50%	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

Competitor-MAFT	0.816 1	1.000 1	0.983 3	0.872 10	0.718 5	0.941 1	0.588 4	0.652 39	0.819 2	0.776 3	0.720 5	0.780 5	0.769 12	1.000 1	0.797 11	0.813 28	0.798 8	1.000 1	0.659 4

PointRel	0.816 1	1.000 1	0.971 8	0.908 6	0.743 2	0.923 8	0.573 8	0.714 22	0.695 18	0.734 10	0.747 2	0.725 12	0.809 1	1.000 1	0.814 9	0.899 3	0.820 4	1.000 1	0.610 18
: Relation3D (PointRel): Enhancing Relation Modeling for Point Cloud Instance Segmentation.
Spherical Mask(CtoF)	0.812 3	1.000 1	0.973 7	0.852 14	0.718 6	0.917 10	0.574 6	0.677 30	0.748 11	0.729 14	0.715 8	0.795 2	0.809 1	1.000 1	0.831 4	0.854 9	0.787 12	1.000 1	0.638 7

EV3D	0.811 4	1.000 1	0.968 9	0.852 14	0.717 7	0.921 9	0.574 7	0.677 30	0.748 11	0.730 13	0.703 13	0.795 2	0.809 1	1.000 1	0.831 4	0.854 9	0.778 16	1.000 1	0.638 8

SIM3D	0.803 5	1.000 1	0.967 10	0.863 13	0.692 19	0.924 7	0.552 12	0.732 21	0.667 22	0.732 12	0.662 17	0.796 1	0.789 9	1.000 1	0.803 10	0.864 6	0.766 21	1.000 1	0.643 6

OneFormer3D	0.801 6	1.000 1	0.973 6	0.909 5	0.698 15	0.928 5	0.582 5	0.668 35	0.685 19	0.780 2	0.687 15	0.698 20	0.702 15	1.000 1	0.794 13	0.900 2	0.784 14	0.986 53	0.635 9
Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: OneFormer3D: One Transformer for Unified Point Cloud Segmentation.
UniPerception	0.800 7	1.000 1	0.930 12	0.872 10	0.727 4	0.862 25	0.454 20	0.764 13	0.820 1	0.746 7	0.706 11	0.750 7	0.772 10	0.926 46	0.764 19	0.818 27	0.826 2	0.997 40	0.660 3

Competitor-SPFormer	0.800 7	1.000 1	0.986 2	0.845 16	0.705 13	0.915 11	0.532 14	0.733 20	0.757 10	0.733 11	0.708 10	0.698 19	0.648 36	0.981 39	0.890 1	0.830 19	0.796 9	0.997 40	0.644 5

InsSSM	0.799 9	1.000 1	0.915 14	0.710 42	0.729 3	0.925 6	0.664 1	0.670 33	0.770 7	0.766 4	0.739 3	0.737 8	0.700 16	1.000 1	0.792 14	0.829 21	0.815 5	0.997 40	0.625 11
Lei Yao, Yi Wang, Moyun Liu, Lap-Pui Chau: SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation. TCSVT, 2024
DCD	0.798 10	1.000 1	0.878 20	0.792 28	0.693 18	0.936 2	0.596 2	0.685 29	0.663 24	0.736 8	0.717 6	0.788 4	0.693 21	1.000 1	0.825 7	0.840 15	0.837 1	1.000 1	0.689 1

TST3D	0.795 11	1.000 1	0.929 13	0.918 4	0.709 10	0.884 20	0.596 3	0.704 25	0.769 8	0.734 9	0.644 22	0.699 18	0.751 13	1.000 1	0.794 12	0.876 5	0.757 24	0.997 40	0.550 33
Duc Tran Dang Trung, Byeongkeun Kang, Yeejin Lee: MSTA3D: Multi-scale Twin-attention for 3D Instance Segmentation. ACM Multimedia 2024
MG-Former	0.791 12	1.000 1	0.980 5	0.837 19	0.626 27	0.897 13	0.543 13	0.759 15	0.800 6	0.766 5	0.659 18	0.769 6	0.697 19	1.000 1	0.791 15	0.707 49	0.791 11	1.000 1	0.610 17

ExtMask3D	0.789 13	1.000 1	0.988 1	0.756 35	0.706 12	0.912 12	0.429 21	0.647 41	0.806 5	0.755 6	0.673 16	0.689 21	0.772 11	1.000 1	0.789 16	0.852 11	0.811 6	1.000 1	0.617 14

Queryformer	0.787 14	1.000 1	0.933 11	0.601 51	0.754 1	0.886 18	0.558 11	0.661 37	0.767 9	0.665 20	0.716 7	0.639 26	0.808 5	1.000 1	0.844 3	0.897 4	0.804 7	1.000 1	0.624 12

MAFT	0.786 15	1.000 1	0.894 19	0.807 23	0.694 17	0.893 16	0.486 16	0.674 32	0.740 13	0.786 1	0.704 12	0.727 11	0.739 14	1.000 1	0.707 25	0.849 13	0.756 25	1.000 1	0.685 2

KmaxOneFormerNet	0.783 16	0.903 56	0.981 4	0.794 27	0.706 11	0.931 4	0.561 10	0.701 26	0.706 16	0.727 15	0.697 14	0.731 10	0.689 23	1.000 1	0.856 2	0.750 40	0.761 23	1.000 1	0.599 22

Mask3D	0.780 17	1.000 1	0.786 44	0.716 40	0.696 16	0.885 19	0.500 15	0.714 22	0.810 4	0.672 19	0.715 8	0.679 22	0.809 1	1.000 1	0.831 4	0.833 18	0.787 12	1.000 1	0.602 20
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
SPFormer	0.770 18	0.903 56	0.903 16	0.806 24	0.609 33	0.886 17	0.568 9	0.815 6	0.705 17	0.711 16	0.655 19	0.652 25	0.685 24	1.000 1	0.789 17	0.809 29	0.776 18	1.000 1	0.583 26
Sun Jiahao, Qing Chunmei, Tan Junpeng, Xu Xiangmin: Superpoint Transformer for 3D Scene Instance Segmentation. AAAI 2023 [Oral]
SoftGroup++	0.769 19	1.000 1	0.803 37	0.937 1	0.684 20	0.865 22	0.213 36	0.870 2	0.664 23	0.571 26	0.758 1	0.702 16	0.807 6	1.000 1	0.653 32	0.902 1	0.792 10	1.000 1	0.626 10

SoftGroup	0.761 20	1.000 1	0.808 33	0.845 16	0.716 8	0.862 24	0.243 33	0.824 4	0.655 26	0.620 21	0.734 4	0.699 17	0.791 8	0.981 39	0.716 23	0.844 14	0.769 19	1.000 1	0.594 24
Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo: SoftGroup for 3D Instance Segmentaiton on Point Clouds. CVPR 2022 [Oral]
ISBNet	0.757 21	1.000 1	0.904 15	0.731 38	0.678 21	0.895 14	0.458 18	0.644 43	0.670 21	0.710 17	0.620 27	0.732 9	0.650 26	1.000 1	0.756 20	0.778 32	0.779 15	1.000 1	0.614 15
Tuan Duc Ngo, Binh-Son Hua, Khoi Nguyen: ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution. CVPR 2023
TD3D	0.751 22	1.000 1	0.774 45	0.867 12	0.621 29	0.934 3	0.404 22	0.706 24	0.812 3	0.605 24	0.633 25	0.626 27	0.690 22	1.000 1	0.640 34	0.820 24	0.777 17	1.000 1	0.612 16
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
PBNet	0.747 23	1.000 1	0.818 29	0.837 20	0.713 9	0.844 27	0.457 19	0.647 41	0.711 15	0.614 22	0.617 29	0.657 24	0.650 26	1.000 1	0.692 26	0.822 23	0.765 22	1.000 1	0.595 23
Weiguang Zhao, Yuyao Yan, Chaolong Yang, Jianan Ye, Xi Yang, Kaizhu Huang: Divide and Conquer: 3D Instance Segmentation With Point-Wise Binarization. ICCV 2023
GraphCut	0.732 24	1.000 1	0.788 42	0.724 39	0.642 26	0.859 26	0.248 32	0.787 11	0.618 29	0.596 25	0.653 21	0.722 14	0.583 48	1.000 1	0.766 18	0.861 7	0.825 3	1.000 1	0.504 39

IPCA-Inst	0.731 25	1.000 1	0.788 43	0.884 9	0.698 14	0.788 43	0.252 31	0.760 14	0.646 27	0.511 34	0.637 24	0.665 23	0.804 7	1.000 1	0.644 33	0.778 33	0.747 27	1.000 1	0.561 30

TopoSeg	0.725 26	1.000 1	0.806 36	0.933 2	0.668 23	0.758 47	0.272 30	0.734 19	0.630 28	0.549 30	0.654 20	0.606 28	0.697 20	0.966 43	0.612 38	0.839 16	0.754 26	1.000 1	0.573 27

DKNet	0.718 27	1.000 1	0.814 30	0.782 29	0.619 30	0.872 21	0.224 34	0.751 17	0.569 33	0.677 18	0.585 33	0.724 13	0.633 38	0.981 39	0.515 48	0.819 25	0.736 28	1.000 1	0.617 13
Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong: 3D Instances as 1D Kernels. ECCV 2022
SSEC	0.707 28	1.000 1	0.850 22	0.924 3	0.648 24	0.747 50	0.162 38	0.862 3	0.572 32	0.520 32	0.624 26	0.549 31	0.649 35	1.000 1	0.560 43	0.706 50	0.768 20	1.000 1	0.591 25

HAIS	0.699 29	1.000 1	0.849 23	0.820 21	0.675 22	0.808 37	0.279 28	0.757 16	0.465 39	0.517 33	0.596 31	0.559 30	0.600 42	1.000 1	0.654 31	0.767 35	0.676 32	0.994 49	0.560 31
Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang: Hierarchical Aggregation for 3D Instance Segmentation. ICCV 2021
SSTNet	0.698 30	1.000 1	0.697 61	0.888 8	0.556 40	0.803 38	0.387 23	0.626 45	0.417 44	0.556 29	0.585 34	0.702 15	0.600 42	1.000 1	0.824 8	0.720 48	0.692 30	1.000 1	0.509 38
Zhihao Liang, Zhihao Li, Songcen Xu, Mingkui Tan, Kui Jia: Instance Segmentation in 3D Scenes using Semantic Superpoint Tree Networks. ICCV2021
DualGroup	0.694 31	1.000 1	0.799 39	0.811 22	0.622 28	0.817 32	0.376 24	0.805 9	0.590 31	0.487 38	0.568 37	0.525 35	0.650 26	0.835 56	0.600 39	0.829 20	0.655 35	1.000 1	0.526 35

SphereSeg	0.680 32	1.000 1	0.856 21	0.744 36	0.618 31	0.893 15	0.151 39	0.651 40	0.713 14	0.537 31	0.579 36	0.430 45	0.651 25	1.000 1	0.389 59	0.744 43	0.697 29	0.991 51	0.601 21

DANCENET	0.680 32	1.000 1	0.807 34	0.733 37	0.600 34	0.768 46	0.375 25	0.543 53	0.538 34	0.610 23	0.599 30	0.498 36	0.632 40	0.981 39	0.739 22	0.856 8	0.633 41	0.882 64	0.454 48

Box2Mask	0.677 34	1.000 1	0.847 24	0.771 31	0.509 49	0.816 33	0.277 29	0.558 52	0.482 36	0.562 28	0.640 23	0.448 41	0.700 16	1.000 1	0.666 27	0.852 12	0.578 48	0.997 40	0.488 43
Julian Chibane, Francis Engelmann, Tuan Anh Tran, Gerard Pons-Moll: Box2Mask: Weakly Supervised 3D Semantic Instance Segmentation Using Bounding Boxes. ECCV 2022
OccuSeg+instance	0.672 35	1.000 1	0.758 53	0.682 44	0.576 38	0.842 28	0.477 17	0.504 59	0.524 35	0.567 27	0.585 35	0.451 40	0.557 50	1.000 1	0.751 21	0.797 30	0.563 51	1.000 1	0.467 47
Lei Han, Tian Zheng, Lan Xu, Lu Fang: OccuSeg: Occupancy-aware 3D Instance Segmentation. CVPR2020
Mask-Group	0.664 36	1.000 1	0.822 28	0.764 34	0.616 32	0.815 34	0.139 43	0.694 28	0.597 30	0.459 42	0.566 38	0.599 29	0.600 42	0.516 66	0.715 24	0.819 26	0.635 39	1.000 1	0.603 19
Min Zhong, Xinghao Chen, Xiaokang Chen, Gang Zeng, Yunhe Wang: MaskGroup: Hierarchical Point Grouping and Masking for 3D Instance Segmentation. ICME 2022
INS-Conv-instance	0.657 37	1.000 1	0.760 51	0.667 46	0.581 36	0.863 23	0.323 26	0.655 38	0.477 37	0.473 40	0.549 40	0.432 44	0.650 26	1.000 1	0.655 30	0.738 44	0.585 47	0.944 56	0.472 46

CSC-Pretrained	0.648 38	1.000 1	0.810 31	0.768 32	0.523 47	0.813 35	0.143 42	0.819 5	0.389 47	0.422 51	0.511 44	0.443 42	0.650 26	1.000 1	0.624 36	0.732 45	0.634 40	1.000 1	0.375 55

PE	0.645 39	1.000 1	0.773 47	0.798 26	0.538 42	0.786 44	0.088 51	0.799 10	0.350 51	0.435 49	0.547 41	0.545 32	0.646 37	0.933 45	0.562 42	0.761 38	0.556 56	0.997 40	0.501 41
Biao Zhang, Peter Wonka: Point Cloud Instance Segmentation using Probabilistic Embeddings. CVPR 2021
RPGN	0.643 40	1.000 1	0.758 52	0.582 57	0.539 41	0.826 31	0.046 56	0.765 12	0.372 49	0.436 48	0.588 32	0.539 34	0.650 26	1.000 1	0.577 40	0.750 41	0.653 37	0.997 40	0.495 42
Shichao Dong, Guosheng Lin, Tzu-Yi Hung: Learning Regional Purity for Instance Segmentation on 3D Point Clouds. ECCV 2022
Dyco3D	0.641 41	1.000 1	0.841 25	0.893 7	0.531 44	0.802 39	0.115 48	0.588 50	0.448 41	0.438 46	0.537 43	0.430 46	0.550 51	0.857 48	0.534 46	0.764 37	0.657 34	0.987 52	0.568 28
Tong He; Chunhua Shen; Anton van den Hengel: DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution. CVPR2021
GICN	0.638 42	1.000 1	0.895 18	0.800 25	0.480 53	0.676 55	0.144 41	0.737 18	0.354 50	0.447 43	0.400 57	0.365 52	0.700 16	1.000 1	0.569 41	0.836 17	0.599 43	1.000 1	0.473 45

PointGroup	0.636 43	1.000 1	0.765 48	0.624 48	0.505 51	0.797 40	0.116 47	0.696 27	0.384 48	0.441 44	0.559 39	0.476 38	0.596 45	1.000 1	0.666 27	0.756 39	0.556 55	0.997 40	0.513 37
Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia: PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation. CVPR 2020 [oral]
DD-UNet+Group	0.635 44	0.667 59	0.797 41	0.714 41	0.562 39	0.774 45	0.146 40	0.810 8	0.429 43	0.476 39	0.546 42	0.399 48	0.633 38	1.000 1	0.632 35	0.722 47	0.609 42	1.000 1	0.514 36
H. Liu, R. Liu, K. Yang, J. Zhang, K. Peng, R. Stiefelhagen: HIDA: Towards Holistic Indoor Understanding for the Visually Impaired via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor. ICCVW 2021
Mask3D_evaluation	0.631 45	1.000 1	0.829 27	0.606 50	0.646 25	0.836 29	0.068 52	0.511 57	0.462 40	0.507 35	0.619 28	0.389 50	0.610 41	1.000 1	0.432 54	0.828 22	0.673 33	0.788 68	0.552 32

DENet	0.629 46	1.000 1	0.797 40	0.608 49	0.589 35	0.627 59	0.219 35	0.882 1	0.310 53	0.402 56	0.383 59	0.396 49	0.650 26	1.000 1	0.663 29	0.543 67	0.691 31	1.000 1	0.568 29

3D-MPA	0.611 47	1.000 1	0.833 26	0.765 33	0.526 46	0.756 48	0.136 45	0.588 50	0.470 38	0.438 47	0.432 53	0.358 54	0.650 26	0.857 48	0.429 55	0.765 36	0.557 54	1.000 1	0.430 50
Francis Engelmann, Martin Bokeloh, Alireza Fathi, Bastian Leibe, Matthias Nießner: 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation. CVPR 2020
OSIS	0.605 48	1.000 1	0.801 38	0.599 52	0.535 43	0.728 52	0.286 27	0.436 63	0.679 20	0.491 36	0.433 51	0.256 56	0.404 63	0.857 48	0.620 37	0.724 46	0.510 61	1.000 1	0.539 34

AOIA	0.601 49	1.000 1	0.761 50	0.687 43	0.485 52	0.828 30	0.008 63	0.663 36	0.405 46	0.405 55	0.425 54	0.490 37	0.596 45	0.714 59	0.553 45	0.779 31	0.597 44	0.992 50	0.424 52

PCJC	0.578 50	1.000 1	0.810 32	0.583 56	0.449 56	0.813 36	0.042 57	0.603 48	0.341 52	0.490 37	0.465 48	0.410 47	0.650 26	0.835 56	0.264 65	0.694 54	0.561 52	0.889 61	0.504 40

SSEN	0.575 51	1.000 1	0.761 49	0.473 59	0.477 54	0.795 41	0.066 53	0.529 55	0.658 25	0.460 41	0.461 49	0.380 51	0.331 65	0.859 47	0.401 58	0.692 56	0.653 36	1.000 1	0.348 57
Dongsu Zhang, Junha Chun, Sang Kyun Cha, Young Min Kim: Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with Deep Metric Learning. Arxiv
RWSeg	0.567 52	0.528 69	0.708 60	0.626 47	0.580 37	0.745 51	0.063 54	0.627 44	0.240 57	0.400 57	0.497 45	0.464 39	0.515 52	1.000 1	0.475 50	0.745 42	0.571 49	1.000 1	0.429 51

NeuralBF	0.555 53	0.667 59	0.896 17	0.843 18	0.517 48	0.751 49	0.029 58	0.519 56	0.414 45	0.439 45	0.465 47	0.000 75	0.484 54	0.857 48	0.287 63	0.693 55	0.651 38	1.000 1	0.485 44
Weiwei Sun, Daniel Rebain, Renjie Liao, Vladimir Tankovich, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi: NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation on Point Clouds. WACV 2023
MTML	0.549 54	1.000 1	0.807 35	0.588 55	0.327 61	0.647 57	0.004 65	0.815 7	0.180 60	0.418 52	0.364 61	0.182 59	0.445 57	1.000 1	0.442 53	0.688 57	0.571 50	1.000 1	0.396 53
Jean Lahoud, Bernard Ghanem, Marc Pollefeys, Martin R. Oswald: 3D Instance Segmentation via Multi-task Metric Learning. ICCV 2019 [oral]
ClickSeg_Instance	0.539 55	1.000 1	0.621 64	0.300 62	0.530 45	0.698 53	0.127 46	0.533 54	0.222 58	0.430 50	0.400 56	0.365 52	0.574 49	0.938 44	0.472 51	0.659 59	0.543 57	0.944 56	0.347 58

One_Thing_One_Click	0.529 56	0.667 59	0.718 56	0.777 30	0.399 57	0.683 54	0.000 68	0.669 34	0.138 63	0.391 58	0.374 60	0.539 33	0.360 64	0.641 63	0.556 44	0.774 34	0.593 45	0.997 40	0.251 63
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
Sparse R-CNN	0.515 57	1.000 1	0.538 69	0.282 63	0.468 55	0.790 42	0.173 37	0.345 65	0.429 42	0.413 54	0.484 46	0.176 60	0.595 47	0.591 64	0.522 47	0.668 58	0.476 62	0.986 54	0.327 59

Occipital-SCS	0.512 58	1.000 1	0.716 57	0.509 58	0.506 50	0.611 60	0.092 50	0.602 49	0.177 61	0.346 61	0.383 58	0.165 61	0.442 58	0.850 55	0.386 60	0.618 63	0.543 58	0.889 61	0.389 54

3D-BoNet	0.488 59	1.000 1	0.672 63	0.590 54	0.301 63	0.484 70	0.098 49	0.620 46	0.306 54	0.341 62	0.259 65	0.125 63	0.434 60	0.796 58	0.402 57	0.499 69	0.513 60	0.909 60	0.439 49
Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen Wang, Andrew Markham, Niki Trigoni: Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds. NeurIPS 2019 Spotlight
PanopticFusion-inst	0.478 60	0.667 59	0.712 59	0.595 53	0.259 66	0.550 66	0.000 68	0.613 47	0.175 62	0.250 67	0.434 50	0.437 43	0.411 62	0.857 48	0.485 49	0.591 66	0.267 72	0.944 56	0.359 56
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
SPG_WSIS	0.470 61	0.667 59	0.685 62	0.677 45	0.372 59	0.562 64	0.000 68	0.482 60	0.244 56	0.316 64	0.298 62	0.052 70	0.442 59	0.857 48	0.267 64	0.702 51	0.559 53	1.000 1	0.287 61

SALoss-ResNet	0.459 62	1.000 1	0.737 55	0.159 73	0.259 65	0.587 62	0.138 44	0.475 61	0.217 59	0.416 53	0.408 55	0.128 62	0.315 66	0.714 59	0.411 56	0.536 68	0.590 46	0.873 65	0.304 60
Zhidong Liang, Ming Yang, Hao Li, Chunxiang Wang: 3D Instance Embedding Learning With a Structure-Aware Loss Function for Point Cloud Segmentation. IEEE Robotics and Automation Letters (IROS2020)
MASC	0.447 63	0.528 69	0.555 67	0.381 60	0.382 58	0.633 58	0.002 66	0.509 58	0.260 55	0.361 60	0.432 52	0.327 55	0.451 56	0.571 65	0.367 61	0.639 61	0.386 63	0.980 55	0.276 62
Chen Liu, Yasutaka Furukawa: MASC: Multi-scale Affinity with Sparse Convolution for 3D Instance Segmentation.
SegGroup_ins	0.445 64	0.667 59	0.773 46	0.185 70	0.317 62	0.656 56	0.000 68	0.407 64	0.134 64	0.381 59	0.267 64	0.217 58	0.476 55	0.714 59	0.452 52	0.629 62	0.514 59	1.000 1	0.222 66
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
3D-SIS	0.382 65	1.000 1	0.432 72	0.245 65	0.190 67	0.577 63	0.013 62	0.263 67	0.033 70	0.320 63	0.240 66	0.075 66	0.422 61	0.857 48	0.117 70	0.699 52	0.271 71	0.883 63	0.235 65
Ji Hou, Angela Dai, Matthias Niessner: 3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. CVPR 2019
Hier3D	0.323 66	0.667 59	0.542 68	0.264 64	0.157 70	0.550 65	0.000 68	0.205 70	0.009 72	0.270 66	0.218 67	0.075 66	0.500 53	0.688 62	0.007 76	0.698 53	0.301 68	0.459 73	0.200 67
Tan: HCFS3D: Hierarchical Coupled Feature Selection Network for 3D Semantic and Instance Segmentation.
UNet-backbone	0.319 67	0.667 59	0.715 58	0.233 66	0.189 68	0.479 71	0.008 63	0.218 68	0.067 69	0.201 69	0.173 68	0.107 64	0.123 71	0.438 67	0.150 67	0.615 64	0.355 64	0.916 59	0.093 75

R-PointNet	0.306 68	0.500 71	0.405 73	0.311 61	0.348 60	0.589 61	0.054 55	0.068 73	0.126 65	0.283 65	0.290 63	0.028 71	0.219 69	0.214 70	0.331 62	0.396 73	0.275 69	0.821 67	0.245 64

Region-18class	0.284 69	0.250 75	0.751 54	0.228 68	0.270 64	0.521 67	0.000 68	0.468 62	0.008 74	0.205 68	0.127 69	0.000 75	0.068 73	0.070 74	0.262 66	0.652 60	0.323 66	0.740 69	0.173 68

SemRegionNet-20cls	0.250 70	0.333 72	0.613 65	0.229 67	0.163 69	0.493 68	0.000 68	0.304 66	0.107 66	0.147 72	0.100 71	0.052 69	0.231 67	0.119 72	0.039 72	0.445 71	0.325 65	0.654 70	0.141 71

tmp	0.248 71	0.667 59	0.437 71	0.188 69	0.153 71	0.491 69	0.000 68	0.208 69	0.094 68	0.153 71	0.099 72	0.057 68	0.217 70	0.119 72	0.039 72	0.466 70	0.302 67	0.640 71	0.140 72

3D-BEVIS	0.248 71	0.667 59	0.566 66	0.076 74	0.035 76	0.394 74	0.027 60	0.035 75	0.098 67	0.099 74	0.030 75	0.025 72	0.098 72	0.375 69	0.126 69	0.604 65	0.181 74	0.854 66	0.171 69
Cathrin Elich, Francis Engelmann, Jonas Schult, Theodora Kontogianni, Bastian Leibe: 3D-BEVIS: Birds-Eye-View Instance Segmentation.
Sem_Recon_ins	0.227 73	0.764 58	0.486 70	0.069 75	0.098 73	0.426 73	0.017 61	0.067 74	0.015 71	0.172 70	0.100 70	0.096 65	0.054 75	0.183 71	0.135 68	0.366 74	0.260 73	0.614 72	0.168 70

ASIS	0.199 74	0.333 72	0.253 75	0.167 72	0.140 72	0.438 72	0.000 68	0.177 71	0.008 73	0.121 73	0.069 73	0.004 74	0.231 68	0.429 68	0.036 74	0.445 72	0.273 70	0.333 75	0.119 74

Sgpn_scannet	0.143 75	0.208 76	0.390 74	0.169 71	0.065 74	0.275 75	0.029 59	0.069 72	0.000 75	0.087 75	0.043 74	0.014 73	0.027 76	0.000 75	0.112 71	0.351 75	0.168 75	0.438 74	0.138 73

MaskRCNN 2d->3d Proj	0.058 76	0.333 72	0.002 76	0.000 76	0.053 75	0.002 76	0.002 67	0.021 76	0.000 75	0.045 76	0.024 76	0.238 57	0.065 74	0.000 75	0.014 75	0.107 76	0.020 76	0.110 76	0.006 76

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

Virtual MVFusion (R)	0.745 1	0.861 1	0.839 1	0.881 1	0.672 2	0.512 1	0.422 17	0.898 1	0.723 1	0.714 1	0.954 2	0.454 1	0.509 1	0.773 1	0.895 1	0.756 1	0.820 1	0.653 1	0.935 1	0.891 1	0.728 1
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
BPNet_2D	0.670 2	0.822 3	0.795 3	0.836 2	0.659 3	0.481 2	0.451 13	0.769 4	0.656 3	0.567 4	0.931 3	0.395 6	0.390 5	0.700 4	0.534 4	0.689 10	0.770 2	0.574 3	0.865 9	0.831 3	0.675 5
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia and Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MVF-GNN（2D）	0.636 3	0.606 14	0.794 4	0.434 16	0.688 1	0.337 8	0.464 12	0.798 3	0.632 5	0.589 3	0.908 8	0.420 2	0.329 12	0.743 2	0.594 2	0.738 2	0.676 5	0.527 4	0.906 2	0.818 6	0.715 3

CU-Hybrid-2D Net	0.636 3	0.825 2	0.820 2	0.179 23	0.648 4	0.463 3	0.549 2	0.742 7	0.676 2	0.628 2	0.961 1	0.420 2	0.379 6	0.684 8	0.381 18	0.732 3	0.723 3	0.599 2	0.827 16	0.851 2	0.634 7

CMX	0.613 5	0.681 8	0.725 12	0.502 12	0.634 6	0.297 18	0.478 10	0.830 2	0.651 4	0.537 7	0.924 4	0.375 7	0.315 14	0.686 7	0.451 14	0.714 5	0.543 21	0.504 6	0.894 7	0.823 5	0.688 4

DMMF_3d	0.605 6	0.651 9	0.744 10	0.782 3	0.637 5	0.387 4	0.536 3	0.732 8	0.590 7	0.540 6	0.856 21	0.359 11	0.306 15	0.596 14	0.539 3	0.627 20	0.706 4	0.497 8	0.785 21	0.757 19	0.476 22

EMSANet	0.600 7	0.716 4	0.746 9	0.395 18	0.614 9	0.382 5	0.523 4	0.713 11	0.571 11	0.503 10	0.922 6	0.404 5	0.397 4	0.655 9	0.400 16	0.626 21	0.663 6	0.469 13	0.900 4	0.827 4	0.577 14
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
MCA-Net	0.595 8	0.533 20	0.756 8	0.746 4	0.590 10	0.334 10	0.506 7	0.670 15	0.587 8	0.500 12	0.905 10	0.366 10	0.352 9	0.601 13	0.506 8	0.669 16	0.648 9	0.501 7	0.839 15	0.769 15	0.516 21

RFBNet	0.592 9	0.616 11	0.758 7	0.659 5	0.581 11	0.330 11	0.469 11	0.655 18	0.543 14	0.524 8	0.924 4	0.355 13	0.336 11	0.572 17	0.479 10	0.671 14	0.648 9	0.480 10	0.814 19	0.814 7	0.614 10

FAN_NV_RVC	0.586 10	0.510 21	0.764 6	0.079 26	0.620 8	0.330 11	0.494 8	0.753 5	0.573 9	0.556 5	0.884 16	0.405 4	0.303 16	0.718 3	0.452 13	0.672 13	0.658 7	0.509 5	0.898 5	0.813 8	0.727 2

DCRedNet	0.583 11	0.682 7	0.723 13	0.542 11	0.510 20	0.310 15	0.451 13	0.668 16	0.549 13	0.520 9	0.920 7	0.375 7	0.446 2	0.528 20	0.417 15	0.670 15	0.577 18	0.478 11	0.862 10	0.806 9	0.628 9

MIX6D_RVC	0.582 12	0.695 5	0.687 17	0.225 21	0.632 7	0.328 13	0.550 1	0.748 6	0.623 6	0.494 15	0.890 14	0.350 15	0.254 23	0.688 6	0.454 12	0.716 4	0.597 17	0.489 9	0.881 8	0.768 16	0.575 15

SSMA	0.577 13	0.695 5	0.716 15	0.439 14	0.563 14	0.314 14	0.444 15	0.719 9	0.551 12	0.503 10	0.887 15	0.346 16	0.348 10	0.603 12	0.353 20	0.709 6	0.600 15	0.457 14	0.901 3	0.786 11	0.599 13
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
DMMF	0.567 14	0.623 10	0.767 5	0.238 20	0.571 13	0.347 6	0.413 19	0.719 9	0.472 20	0.418 22	0.895 13	0.357 12	0.260 22	0.696 5	0.523 7	0.666 17	0.642 11	0.437 18	0.895 6	0.793 10	0.603 12

UNIV_CNP_RVC_UE	0.566 15	0.569 19	0.686 19	0.435 15	0.524 17	0.294 19	0.421 18	0.712 12	0.543 14	0.463 17	0.872 17	0.320 17	0.363 8	0.611 11	0.477 11	0.686 11	0.627 12	0.443 17	0.862 10	0.775 14	0.639 6

EMSAFormer	0.564 16	0.581 16	0.736 11	0.564 10	0.546 16	0.219 23	0.517 5	0.675 14	0.486 19	0.427 21	0.904 11	0.352 14	0.320 13	0.589 15	0.528 5	0.708 7	0.464 24	0.413 22	0.847 14	0.786 11	0.611 11

SN_RN152pyrx8_RVC	0.546 17	0.572 17	0.663 21	0.638 7	0.518 18	0.298 17	0.366 24	0.633 21	0.510 17	0.446 19	0.864 19	0.296 20	0.267 19	0.542 19	0.346 21	0.704 8	0.575 19	0.431 19	0.853 13	0.766 17	0.630 8

UDSSEG_RVC	0.545 18	0.610 13	0.661 22	0.588 8	0.556 15	0.268 21	0.482 9	0.642 20	0.572 10	0.475 16	0.836 23	0.312 18	0.367 7	0.630 10	0.189 23	0.639 19	0.495 23	0.452 15	0.826 17	0.756 20	0.541 17

segfomer with 6d	0.542 19	0.594 15	0.687 17	0.146 24	0.579 12	0.308 16	0.515 6	0.703 13	0.472 20	0.498 13	0.868 18	0.369 9	0.282 17	0.589 15	0.390 17	0.701 9	0.556 20	0.416 21	0.860 12	0.759 18	0.539 19

FuseNet	0.535 20	0.570 18	0.681 20	0.182 22	0.512 19	0.290 20	0.431 16	0.659 17	0.504 18	0.495 14	0.903 12	0.308 19	0.428 3	0.523 21	0.365 19	0.676 12	0.621 14	0.470 12	0.762 22	0.779 13	0.541 17
Caner Hazirbas, Lingni Ma, Csaba Domokos, Daniel Cremers: FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. ACCV 2016
AdapNet++	0.503 21	0.613 12	0.722 14	0.418 17	0.358 26	0.337 8	0.370 23	0.479 24	0.443 22	0.368 24	0.907 9	0.207 23	0.213 25	0.464 24	0.525 6	0.618 22	0.657 8	0.450 16	0.788 20	0.721 23	0.408 25
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
3DMV (2d proj)	0.498 22	0.481 24	0.612 23	0.579 9	0.456 22	0.343 7	0.384 21	0.623 22	0.525 16	0.381 23	0.845 22	0.254 22	0.264 21	0.557 18	0.182 24	0.581 24	0.598 16	0.429 20	0.760 23	0.661 25	0.446 24
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
MSeg1080_RVC	0.485 23	0.505 22	0.709 16	0.092 25	0.427 23	0.241 22	0.411 20	0.654 19	0.385 26	0.457 18	0.861 20	0.053 26	0.279 18	0.503 22	0.481 9	0.645 18	0.626 13	0.365 24	0.748 24	0.725 22	0.529 20
John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun: MSeg: A Composite Dataset for Multi-domain Semantic Segmentation. CVPR 2020
ILC-PSPNet	0.475 24	0.490 23	0.581 24	0.289 19	0.507 21	0.067 26	0.379 22	0.610 23	0.417 24	0.435 20	0.822 25	0.278 21	0.267 19	0.503 22	0.228 22	0.616 23	0.533 22	0.375 23	0.820 18	0.729 21	0.560 16

Enet (reimpl)	0.376 25	0.264 26	0.452 26	0.452 13	0.365 24	0.181 24	0.143 26	0.456 25	0.409 25	0.346 25	0.769 26	0.164 24	0.218 24	0.359 25	0.123 26	0.403 26	0.381 26	0.313 26	0.571 25	0.685 24	0.472 23
Re-implementation of Adam Paszke, Abhishek Chaurasia, Sangpil Kim, Eugenio Culurciello: ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation.
ScanNet (2d proj)	0.330 26	0.293 25	0.521 25	0.657 6	0.361 25	0.161 25	0.250 25	0.004 26	0.440 23	0.183 26	0.836 23	0.125 25	0.060 26	0.319 26	0.132 25	0.417 25	0.412 25	0.344 25	0.541 26	0.427 26	0.109 26
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

EMSANet (Instance)	0.241 1	0.401 1	0.439 1	0.085 1	0.242 1	0.220 1	0.081 1	0.289 2	0.117 2	0.121 1	0.182 1	0.126 1	0.346 1	0.181 2	0.181 2	0.358 1	0.156 1	0.675 2	0.131 1
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
UniDet_RVC	0.205 2	0.381 2	0.323 3	0.037 3	0.226 3	0.177 3	0.063 2	0.277 3	0.120 1	0.067 3	0.131 3	0.074 3	0.317 2	0.080 3	0.235 1	0.289 3	0.141 3	0.678 1	0.080 3

FKNet	0.204 3	0.334 3	0.358 2	0.038 2	0.234 2	0.184 2	0.025 3	0.318 1	0.042 4	0.088 2	0.141 2	0.053 4	0.300 3	0.207 1	0.171 3	0.292 2	0.149 2	0.636 3	0.109 2

MaskRCNN_ScanNet	0.119 4	0.129 4	0.212 4	0.002 4	0.112 4	0.148 4	0.014 4	0.205 4	0.044 3	0.066 4	0.078 4	0.095 2	0.142 4	0.030 4	0.128 4	0.139 4	0.080 4	0.459 4	0.057 4
Re-implementation of Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick: Mask R-CNN. ICCV'17

Presenting the ScanNet200 Benchmark

ScanNet200 Benchmark

ScanNet200 3D Semantic Label Benchmark

ScanNet200 3D Semantic Instance Benchmark

ScanNet Benchmark

3D Semantic Label Benchmark

3D Semantic Instance Benchmark

2D Semantic Label Benchmark

2D Semantic Instance Benchmark

Scene Type Classification Benchmark

Method	avg recall	apartment	bathroom	bedroom / hotel	bookstore / library	conference room	copy/mail room	hallway	kitchen	laundry room	living room / lounge	misc	office	storage / basement / garage

LAST-PCL-type	0.780 1	0.250 3	1.000 1	1.000 1	1.000 1	1.000 1	1.000 1	0.500 2	1.000 1	0.500 2	0.889 1	0.000 2	1.000 1	1.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang: Language-Assisted 3D Scene Understanding. arxiv23.12
multi-task	0.700 2	0.500 1	1.000 1	0.882 3	0.500 3	1.000 1	1.000 1	0.500 2	1.000 1	1.000 1	0.778 2	0.000 2	0.938 2	0.000 3
Shengyu Huang, Mikhail Usvyatsov, Konrad Schindler: Indoor Scene Recognition in 3D. IROS 2020
3DASPP-SCE	0.691 3	0.500 1	0.938 3	0.824 4	1.000 1	1.000 1	0.500 3	1.000 1	0.857 3	0.500 2	0.556 4	0.000 2	0.812 3	0.500 2

SE-ResNeXt-SSMA	0.498 4	0.000 5	0.812 4	0.941 2	0.500 3	0.500 4	0.500 3	0.500 2	0.429 5	0.500 2	0.667 3	0.500 1	0.625 4	0.000 3
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. arXiv
resnet50_scannet	0.353 5	0.250 3	0.812 4	0.529 5	0.500 3	0.500 4	0.000 5	0.500 2	0.571 4	0.000 5	0.556 4	0.000 2	0.375 5	0.000 3