Benchmark Results - ScanNet Benchmark

This table lists the benchmark results for the ScanNet200 3D semantic label scenario.

Method	avg iou	head iou	common iou	tail iou	wall	chair	floor	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

ODIN - Sem200	0.368 4	0.562 4	0.297 4	0.207 4	0.800 10	0.669 13	0.940 10	0.575 3	0.654 9	0.749 8	0.487 3	0.589 1	0.609 2	0.001 12	0.769 12	0.561 8	0.752 6	0.274 5	0.682 6	0.926 13	0.554 4	0.833 14	0.921 4	0.389 2	0.599 10	0.591 1	0.787 8	0.550 2	0.657 5	0.610 4	0.334 13	0.803 8	0.661 4	0.090 6	0.408 7	0.373 15	0.000 1	0.912 2	0.796 17	0.501 17	0.169 8	0.000 7	0.641 4	0.196 1	0.380 17	0.397 3	0.641 5	0.740 9	0.862 1	0.213 3	0.857 6	0.685 7	0.216 1	0.578 16	0.557 10	0.685 5	0.523 8	0.581 16	0.312 3	0.000 3	0.065 15	0.000 17	0.871 3	0.359 8	0.988 2	0.321 2	0.090 16	0.704 6	0.631 2	0.393 15	0.246 11	0.000 1	0.482 8	0.565 15	0.000 4	0.000 9	0.000 1	0.181 1	0.913 1	0.468 16	0.632 8	0.642 5	0.259 11	0.000 17	0.832 1	0.663 1	0.000 3	0.081 1	0.000 1	0.048 2	0.000 4	0.376 1	0.898 7	0.000 1	0.157 1	0.000 10	0.870 3	0.000 17	0.400 5	0.265 4	0.242 5	0.227 6	0.539 1	0.370 14	0.214 13	0.129 10	0.000 4	0.131 10	0.054 17	0.000 3	0.358 9	0.491 1	0.462 4	0.434 3	0.346 15	0.454 15	0.316 2	0.814 1	0.828 2	0.000 1	0.000 17	0.220 17	0.612 11	0.000 1	0.000 11	0.373 2	0.378 2	0.000 7	0.429 4	0.152 11	0.077 9	0.166 4	0.202 5	0.000 1	0.000 5	0.441 14	0.000 1	0.440 6	0.000 1	0.000 12	0.655 1	0.000 1	0.626 7	0.000 1	0.000 1	0.228 9	0.487 1	0.784 16	0.000 9	0.301 3	0.000 1	0.426 2	0.000 1	0.108 9	0.460 13	0.590 4	0.775 1	0.088 6	0.119 15	0.485 9	0.791 1	0.000 12	0.000 1	0.256 17	0.000 2	0.000 2	0.000 11	0.885 3	0.303 1	0.000 1	0.000 1	0.127 16	0.000 7	0.000 3	0.894 2	0.000 1
Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki: ODIN: A Single Model for 2D and 3D Segmentation. CVPR 2024
BFANet ScanNet200	0.360 5	0.553 7	0.293 5	0.193 5	0.827 4	0.689 4	0.970 3	0.528 13	0.661 6	0.753 6	0.436 8	0.378 8	0.469 15	0.042 7	0.810 3	0.654 2	0.760 4	0.266 10	0.659 10	0.973 4	0.574 3	0.849 11	0.897 5	0.382 3	0.546 13	0.372 9	0.698 14	0.491 9	0.617 10	0.526 10	0.436 1	0.764 14	0.476 17	0.101 5	0.409 6	0.585 10	0.000 1	0.835 6	0.901 3	0.810 5	0.102 14	0.000 7	0.688 2	0.096 6	0.483 10	0.264 12	0.612 9	0.591 16	0.358 2	0.161 6	0.863 5	0.707 4	0.128 4	0.814 2	0.669 4	0.629 10	0.563 4	0.651 14	0.258 5	0.000 3	0.194 10	0.494 9	0.806 12	0.394 6	0.953 5	0.000 7	0.233 1	0.757 4	0.508 6	0.556 4	0.476 4	0.000 1	0.573 5	0.741 6	0.000 4	0.000 9	0.000 1	0.000 6	0.000 17	0.852 5	0.678 3	0.616 6	0.460 5	0.338 3	0.710 5	0.534 5	0.000 3	0.025 4	0.000 1	0.043 3	0.000 4	0.056 12	0.493 17	0.000 1	0.000 10	0.109 5	0.785 7	0.590 6	0.298 13	0.282 3	0.143 13	0.262 4	0.053 11	0.526 4	0.337 5	0.215 1	0.000 4	0.135 9	0.510 4	0.000 3	0.596 4	0.043 14	0.511 3	0.321 12	0.459 3	0.772 2	0.124 13	0.060 14	0.266 6	0.000 1	0.574 9	0.568 9	0.653 10	0.000 1	0.093 1	0.298 4	0.239 3	0.000 7	0.516 2	0.129 14	0.284 2	0.000 8	0.431 1	0.000 1	0.000 5	0.848 6	0.000 1	0.492 1	0.000 1	0.376 3	0.522 6	0.000 1	0.469 17	0.000 1	0.000 1	0.330 6	0.151 10	0.875 14	0.000 9	0.254 4	0.000 1	0.000 9	0.000 1	0.088 13	0.661 1	0.481 5	0.255 12	0.105 1	0.139 9	0.666 5	0.641 5	0.000 12	0.000 1	0.614 2	0.000 2	0.000 2	0.000 11	0.921 2	0.000 3	0.000 1	0.000 1	0.497 1	0.000 7	0.000 3	0.000 11	0.000 1
Weiguang Zhao, Rui Zhang, Qiufeng Wang, Guangliang Cheng, Kaizhu Huang: BFANet: Revisiting 3D Semantic Segmentation with Boundary Feature Analysis. CVPR 2025
DITR	0.449 1	0.629 1	0.392 1	0.289 1	0.851 2	0.727 1	0.969 4	0.600 1	0.741 2	0.805 1	0.519 1	0.480 3	0.636 1	0.014 10	0.867 1	0.680 1	0.849 1	0.318 3	0.753 2	0.982 2	0.508 12	0.871 6	0.934 2	0.482 1	0.596 11	0.551 2	0.804 4	0.508 6	0.729 1	0.718 2	0.417 4	0.886 1	0.664 3	0.000 17	0.500 2	0.698 1	0.000 1	0.913 1	0.901 3	0.766 7	0.113 12	0.000 7	0.617 5	0.168 2	0.650 1	0.477 1	0.826 1	0.962 1	0.348 3	0.300 1	0.947 1	0.776 2	0.160 3	0.889 1	0.651 5	0.720 2	0.700 1	0.728 3	0.317 1	0.000 3	0.238 5	0.664 1	0.869 4	0.514 2	0.998 1	0.313 3	0.138 10	0.815 1	0.828 1	0.622 2	0.421 5	0.000 1	0.823 1	0.817 1	0.000 4	0.000 9	0.000 1	0.157 2	0.866 3	0.991 1	0.805 1	0.660 4	0.571 2	0.043 12	0.709 6	0.642 3	0.000 3	0.000 7	0.000 1	0.028 10	0.018 3	0.134 3	0.967 2	0.000 1	0.150 2	0.130 2	0.949 1	0.855 1	0.580 1	0.262 5	0.314 1	0.230 5	0.222 4	0.498 5	0.367 1	0.153 3	0.869 1	0.334 2	0.397 8	0.000 3	0.904 1	0.486 2	1.000 1	0.423 4	0.484 1	0.632 6	0.716 1	0.733 2	0.862 1	0.000 1	0.433 14	0.710 1	0.851 2	0.000 1	0.034 4	0.315 3	0.385 1	0.000 7	0.001 9	0.268 9	0.066 11	0.000 8	0.278 4	0.000 1	0.978 1	0.839 8	0.000 1	0.448 4	0.000 1	0.579 1	0.403 12	0.000 1	0.647 3	0.000 1	0.000 1	0.411 3	0.315 6	0.904 7	0.420 1	0.392 2	0.000 1	0.091 6	0.000 1	0.128 3	0.564 3	0.591 3	0.568 2	0.079 9	0.139 9	1.000 1	0.714 3	0.178 1	0.000 1	0.606 3	0.000 2	0.000 2	0.148 6	0.983 1	0.000 3	0.000 1	0.000 1	0.374 2	0.000 7	0.000 3	0.662 4	0.000 1
Karim Abou Zeid, Kadir Yilmaz, Daan de Geus, Alexander Hermans, David Adrian, Timm Linder, Bastian Leibe: DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation.
PTv3 ScanNet200	0.393 3	0.592 3	0.330 2	0.216 3	0.851 2	0.687 6	0.971 2	0.586 2	0.755 1	0.752 7	0.505 2	0.404 7	0.575 5	0.000 14	0.848 2	0.616 4	0.761 3	0.349 1	0.738 3	0.978 3	0.546 6	0.860 8	0.926 3	0.346 4	0.654 3	0.384 7	0.828 1	0.523 4	0.699 3	0.583 6	0.387 7	0.822 3	0.688 2	0.118 4	0.474 3	0.603 5	0.000 1	0.832 8	0.903 2	0.753 9	0.140 10	0.000 7	0.650 3	0.109 5	0.520 3	0.457 2	0.497 10	0.871 4	0.281 4	0.192 5	0.887 4	0.748 3	0.168 2	0.727 7	0.733 2	0.740 1	0.644 2	0.714 5	0.190 13	0.000 3	0.256 3	0.449 10	0.914 1	0.514 2	0.759 15	0.337 1	0.172 6	0.692 7	0.617 3	0.636 1	0.325 7	0.000 1	0.641 2	0.782 2	0.000 4	0.065 3	0.000 1	0.000 6	0.842 4	0.903 2	0.661 4	0.662 3	0.612 1	0.405 2	0.731 4	0.566 4	0.000 3	0.000 7	0.000 1	0.017 15	0.301 1	0.088 7	0.941 3	0.000 1	0.077 4	0.000 10	0.717 8	0.790 2	0.310 12	0.026 17	0.264 4	0.349 1	0.220 5	0.397 12	0.366 2	0.115 13	0.000 4	0.337 1	0.463 6	0.000 3	0.531 5	0.218 4	0.593 2	0.455 2	0.469 2	0.708 3	0.210 4	0.592 4	0.108 16	0.000 1	0.728 1	0.682 3	0.671 8	0.000 1	0.000 11	0.407 1	0.136 4	0.022 3	0.575 1	0.436 4	0.259 3	0.428 1	0.048 6	0.000 1	0.000 5	0.879 5	0.000 1	0.480 2	0.000 1	0.133 9	0.597 2	0.000 1	0.690 2	0.000 1	0.000 1	0.009 16	0.000 15	0.921 3	0.000 9	0.151 5	0.000 1	0.000 9	0.000 1	0.109 8	0.494 11	0.622 2	0.394 9	0.073 12	0.141 7	0.798 2	0.528 8	0.026 5	0.000 1	0.551 5	0.000 2	0.000 2	0.134 7	0.717 8	0.000 3	0.000 1	0.000 1	0.188 4	0.000 7	0.000 3	0.791 3	0.000 1
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
PPT-SpUNet-F.T.	0.332 12	0.556 6	0.270 7	0.123 14	0.816 6	0.682 9	0.946 6	0.549 10	0.657 8	0.756 5	0.459 7	0.376 9	0.550 11	0.001 12	0.807 4	0.616 4	0.727 12	0.267 9	0.691 5	0.942 11	0.530 9	0.872 5	0.874 8	0.330 8	0.542 14	0.374 8	0.792 5	0.400 14	0.673 4	0.572 7	0.433 2	0.793 9	0.623 7	0.008 16	0.351 10	0.594 8	0.000 1	0.783 13	0.876 7	0.833 4	0.213 6	0.000 7	0.537 8	0.091 7	0.519 4	0.304 8	0.620 8	0.942 2	0.264 5	0.124 8	0.855 7	0.695 5	0.086 8	0.646 10	0.506 16	0.658 7	0.535 6	0.715 4	0.314 2	0.000 3	0.241 4	0.608 3	0.897 2	0.359 8	0.858 11	0.000 7	0.076 17	0.611 11	0.392 12	0.509 7	0.378 6	0.000 1	0.579 4	0.565 15	0.000 4	0.000 9	0.000 1	0.000 6	0.755 7	0.806 9	0.661 4	0.572 13	0.350 9	0.181 7	0.660 12	0.300 14	0.000 3	0.000 7	0.000 1	0.023 12	0.000 4	0.042 14	0.930 4	0.000 1	0.000 10	0.077 7	0.584 9	0.392 10	0.339 9	0.185 10	0.171 12	0.308 2	0.006 13	0.563 3	0.256 8	0.150 4	0.000 4	0.002 16	0.345 12	0.000 3	0.045 14	0.197 5	0.063 11	0.323 11	0.453 4	0.600 8	0.163 11	0.037 15	0.349 4	0.000 1	0.672 3	0.679 4	0.753 5	0.000 1	0.000 11	0.000 12	0.117 6	0.000 7	0.000 10	0.291 8	0.000 12	0.000 8	0.039 7	0.000 1	0.000 5	0.899 2	0.000 1	0.374 11	0.000 1	0.000 12	0.545 5	0.000 1	0.634 5	0.000 1	0.000 1	0.074 13	0.223 8	0.914 6	0.000 9	0.021 9	0.000 1	0.000 9	0.000 1	0.112 6	0.498 10	0.649 1	0.383 10	0.095 2	0.135 12	0.449 11	0.432 12	0.008 9	0.000 1	0.518 7	0.000 2	0.000 2	0.000 11	0.796 5	0.000 3	0.000 1	0.000 1	0.138 13	0.000 7	0.000 3	0.000 11	0.000 1
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OA-CNN-L_ScanNet200	0.333 11	0.558 5	0.269 9	0.124 13	0.821 5	0.703 3	0.946 6	0.569 5	0.662 4	0.748 9	0.487 3	0.455 4	0.572 7	0.000 14	0.789 9	0.534 9	0.736 9	0.271 8	0.713 4	0.949 6	0.498 14	0.877 3	0.860 11	0.332 7	0.706 1	0.474 3	0.788 7	0.406 13	0.637 6	0.495 11	0.355 11	0.805 7	0.592 12	0.015 13	0.396 8	0.602 6	0.000 1	0.799 11	0.876 7	0.713 13	0.276 2	0.000 7	0.493 13	0.080 9	0.448 14	0.363 5	0.661 4	0.833 6	0.262 6	0.125 7	0.823 12	0.665 9	0.076 9	0.720 8	0.557 10	0.637 9	0.517 9	0.672 10	0.227 8	0.000 3	0.158 12	0.496 8	0.843 11	0.352 10	0.835 13	0.000 7	0.103 14	0.711 5	0.527 4	0.526 6	0.320 8	0.000 1	0.568 6	0.625 11	0.067 1	0.000 9	0.000 1	0.001 5	0.806 6	0.836 7	0.621 10	0.591 8	0.373 8	0.314 5	0.668 10	0.398 9	0.003 2	0.000 7	0.000 1	0.016 16	0.024 2	0.043 13	0.906 6	0.000 1	0.052 6	0.000 10	0.384 12	0.330 12	0.342 8	0.100 12	0.223 7	0.183 13	0.112 7	0.476 6	0.313 7	0.130 9	0.196 3	0.112 12	0.370 11	0.000 3	0.234 12	0.071 9	0.160 7	0.403 6	0.398 13	0.492 14	0.197 6	0.076 13	0.272 5	0.000 1	0.200 16	0.560 10	0.735 7	0.000 1	0.000 11	0.000 12	0.110 8	0.002 6	0.021 8	0.412 5	0.000 12	0.000 8	0.000 11	0.000 1	0.000 5	0.794 11	0.000 1	0.445 5	0.000 1	0.022 10	0.509 7	0.000 1	0.517 13	0.000 1	0.000 1	0.001 17	0.245 7	0.915 5	0.024 6	0.089 7	0.000 1	0.262 3	0.000 1	0.103 11	0.524 7	0.392 11	0.515 4	0.013 17	0.251 4	0.411 13	0.662 4	0.001 11	0.000 1	0.473 12	0.000 2	0.000 2	0.150 5	0.699 9	0.000 3	0.000 1	0.000 1	0.166 6	0.000 7	0.024 2	0.000 11	0.000 1

CeCo	0.340 7	0.551 9	0.247 13	0.181 6	0.784 13	0.661 14	0.939 13	0.564 6	0.624 13	0.721 12	0.484 5	0.429 5	0.575 5	0.027 8	0.774 11	0.503 14	0.753 5	0.242 13	0.656 11	0.945 9	0.534 7	0.865 7	0.860 11	0.177 17	0.616 8	0.400 5	0.818 2	0.579 1	0.615 11	0.367 14	0.408 6	0.726 15	0.633 5	0.162 1	0.360 9	0.619 3	0.000 1	0.828 9	0.873 9	0.924 2	0.109 13	0.083 3	0.564 6	0.057 15	0.475 12	0.266 11	0.781 2	0.767 7	0.257 7	0.100 11	0.825 11	0.663 10	0.048 15	0.620 13	0.551 12	0.595 13	0.532 7	0.692 8	0.246 6	0.000 3	0.213 6	0.615 2	0.861 7	0.376 7	0.900 8	0.000 7	0.102 15	0.660 8	0.321 15	0.547 5	0.226 13	0.000 1	0.311 13	0.742 5	0.011 3	0.006 8	0.000 1	0.000 6	0.546 15	0.824 8	0.345 14	0.665 2	0.450 6	0.435 1	0.683 8	0.411 8	0.338 1	0.000 7	0.000 1	0.030 9	0.000 4	0.068 9	0.892 8	0.000 1	0.063 5	0.000 10	0.257 13	0.304 13	0.387 6	0.079 14	0.228 6	0.190 11	0.000 14	0.586 1	0.347 4	0.133 7	0.000 4	0.037 13	0.377 10	0.000 3	0.384 8	0.006 16	0.003 13	0.421 5	0.410 10	0.643 5	0.171 9	0.121 9	0.142 12	0.000 1	0.510 11	0.447 11	0.474 14	0.000 1	0.000 11	0.286 5	0.083 11	0.000 7	0.000 10	0.603 1	0.096 7	0.063 5	0.000 11	0.000 1	0.000 5	0.898 3	0.000 1	0.429 7	0.000 1	0.400 2	0.550 4	0.000 1	0.633 6	0.000 1	0.000 1	0.377 5	0.000 15	0.916 4	0.000 9	0.000 11	0.000 1	0.000 9	0.000 1	0.102 12	0.499 9	0.296 14	0.463 6	0.089 5	0.304 1	0.740 3	0.401 16	0.010 7	0.000 1	0.560 4	0.000 2	0.000 2	0.709 2	0.652 10	0.000 3	0.000 1	0.000 1	0.143 8	0.000 7	0.000 3	0.609 5	0.000 1
Zhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia: Understanding Imbalanced Semantic Segmentation Through Neural Collapse. CVPR 2023
ALS-MinkowskiNet	0.414 2	0.610 2	0.322 3	0.271 2	0.852 1	0.710 2	0.973 1	0.572 4	0.719 3	0.795 2	0.477 6	0.506 2	0.601 3	0.000 14	0.804 5	0.646 3	0.804 2	0.344 2	0.777 1	0.984 1	0.671 1	0.879 2	0.936 1	0.342 5	0.632 7	0.449 4	0.817 3	0.475 10	0.723 2	0.798 1	0.376 8	0.832 2	0.693 1	0.031 9	0.564 1	0.510 13	0.000 1	0.893 3	0.905 1	0.672 16	0.314 1	0.000 7	0.718 1	0.153 3	0.542 2	0.397 3	0.726 3	0.752 8	0.252 8	0.226 2	0.916 2	0.800 1	0.047 16	0.807 3	0.769 1	0.709 3	0.630 3	0.769 1	0.217 10	0.000 3	0.285 1	0.598 4	0.846 10	0.535 1	0.956 4	0.000 7	0.137 11	0.784 2	0.464 7	0.463 13	0.230 12	0.000 1	0.598 3	0.662 9	0.000 4	0.087 2	0.000 1	0.135 3	0.900 2	0.780 11	0.703 2	0.741 1	0.571 2	0.149 9	0.697 7	0.646 2	0.000 3	0.076 2	0.000 1	0.025 11	0.000 4	0.106 6	0.981 1	0.000 1	0.043 7	0.113 4	0.888 2	0.248 15	0.404 4	0.252 6	0.314 1	0.220 7	0.245 2	0.466 7	0.366 2	0.159 2	0.000 4	0.149 8	0.690 2	0.000 3	0.531 5	0.253 3	0.285 6	0.460 1	0.440 5	0.813 1	0.230 3	0.283 6	0.159 11	0.000 1	0.728 1	0.666 5	0.958 1	0.000 1	0.021 5	0.252 8	0.118 5	0.000 7	0.445 3	0.223 10	0.285 1	0.194 3	0.390 2	0.000 1	0.475 4	0.842 7	0.000 1	0.455 3	0.000 1	0.250 7	0.458 8	0.000 1	0.865 1	0.000 1	0.000 1	0.635 1	0.359 5	0.972 1	0.087 3	0.447 1	0.000 1	0.000 9	0.000 1	0.129 2	0.532 6	0.446 8	0.503 5	0.071 13	0.135 12	0.699 4	0.717 2	0.097 2	0.000 1	0.665 1	0.000 2	0.000 2	1.000 1	0.752 6	0.000 3	0.000 1	0.000 1	0.142 9	0.200 1	0.259 1	1.000 1	0.000 1
Guangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum: ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding. CVPR 2025
PonderV2 ScanNet200	0.346 6	0.552 8	0.270 8	0.175 9	0.810 7	0.682 9	0.950 5	0.560 7	0.641 10	0.761 3	0.398 13	0.357 10	0.570 8	0.113 2	0.804 5	0.603 6	0.750 7	0.283 4	0.681 7	0.952 5	0.548 5	0.874 4	0.852 13	0.290 12	0.700 2	0.356 11	0.792 5	0.445 12	0.545 13	0.436 12	0.351 12	0.787 10	0.611 8	0.050 8	0.290 14	0.519 12	0.000 1	0.825 10	0.888 5	0.842 3	0.259 3	0.100 2	0.558 7	0.070 12	0.497 7	0.247 14	0.457 11	0.889 3	0.248 9	0.106 10	0.817 13	0.691 6	0.094 7	0.729 6	0.636 6	0.620 12	0.503 11	0.660 13	0.243 7	0.000 3	0.212 7	0.590 5	0.860 8	0.400 5	0.881 9	0.000 7	0.202 2	0.622 10	0.408 11	0.499 8	0.261 10	0.000 1	0.385 10	0.636 10	0.000 4	0.000 9	0.000 1	0.000 6	0.433 16	0.843 6	0.660 6	0.574 12	0.481 4	0.336 4	0.677 9	0.486 6	0.000 3	0.030 3	0.000 1	0.034 6	0.000 4	0.080 8	0.869 10	0.000 1	0.000 10	0.000 10	0.540 10	0.727 3	0.232 17	0.115 11	0.186 10	0.193 9	0.000 14	0.403 11	0.326 6	0.103 14	0.000 4	0.290 4	0.392 9	0.000 3	0.346 10	0.062 10	0.424 5	0.375 7	0.431 6	0.667 4	0.115 14	0.082 12	0.239 7	0.000 1	0.504 12	0.606 8	0.584 12	0.000 1	0.002 9	0.186 10	0.104 10	0.000 7	0.394 5	0.384 6	0.083 8	0.000 8	0.007 9	0.000 1	0.000 5	0.880 4	0.000 1	0.377 10	0.000 1	0.263 6	0.565 3	0.000 1	0.608 9	0.000 1	0.000 1	0.304 7	0.009 11	0.924 2	0.000 9	0.000 11	0.000 1	0.000 9	0.000 1	0.128 3	0.584 2	0.475 7	0.412 8	0.076 11	0.269 3	0.621 6	0.509 9	0.010 7	0.000 1	0.491 11	0.063 1	0.000 2	0.472 4	0.880 4	0.000 3	0.000 1	0.000 1	0.179 5	0.125 2	0.000 3	0.441 10	0.000 1
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
LGround	0.272 15	0.485 15	0.184 15	0.106 15	0.778 15	0.676 11	0.932 15	0.479 17	0.572 15	0.718 14	0.399 12	0.265 15	0.453 16	0.085 3	0.745 15	0.446 15	0.726 13	0.232 15	0.622 15	0.901 15	0.512 11	0.826 15	0.786 16	0.178 16	0.549 12	0.277 15	0.659 15	0.381 15	0.518 14	0.295 17	0.323 14	0.777 12	0.599 10	0.028 10	0.321 11	0.363 16	0.000 1	0.708 15	0.858 14	0.746 10	0.063 15	0.022 5	0.457 15	0.077 10	0.476 11	0.243 15	0.402 14	0.397 17	0.233 10	0.077 15	0.720 17	0.610 16	0.103 6	0.629 12	0.437 17	0.626 11	0.446 14	0.702 6	0.190 13	0.005 1	0.058 16	0.322 14	0.702 16	0.244 15	0.768 14	0.000 7	0.134 12	0.552 15	0.279 16	0.395 14	0.147 16	0.000 1	0.207 15	0.612 13	0.000 4	0.000 9	0.000 1	0.000 6	0.658 11	0.566 14	0.323 15	0.525 15	0.229 12	0.179 8	0.467 17	0.154 16	0.000 3	0.002 5	0.000 1	0.051 1	0.000 4	0.127 4	0.703 12	0.000 1	0.000 10	0.216 1	0.112 16	0.358 11	0.547 2	0.187 9	0.092 16	0.156 17	0.055 10	0.296 15	0.252 9	0.143 5	0.000 4	0.014 14	0.398 7	0.000 3	0.028 16	0.173 7	0.000 15	0.265 16	0.348 14	0.415 16	0.179 8	0.019 16	0.218 8	0.000 1	0.597 8	0.274 16	0.565 13	0.000 1	0.012 8	0.000 12	0.039 16	0.022 3	0.000 10	0.117 15	0.000 12	0.000 8	0.000 11	0.000 1	0.000 5	0.324 16	0.000 1	0.384 9	0.000 1	0.000 12	0.251 17	0.000 1	0.566 11	0.000 1	0.000 1	0.066 14	0.404 4	0.886 13	0.199 2	0.000 11	0.000 1	0.059 7	0.000 1	0.136 1	0.540 5	0.127 17	0.295 11	0.085 7	0.143 6	0.514 7	0.413 15	0.000 12	0.000 1	0.498 8	0.000 2	0.000 2	0.000 11	0.623 12	0.000 3	0.000 1	0.000 1	0.132 15	0.000 7	0.000 3	0.000 11	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild. arXiv
AWCS	0.305 14	0.508 14	0.225 14	0.142 11	0.782 14	0.634 17	0.937 14	0.489 15	0.578 14	0.721 12	0.364 15	0.355 11	0.515 12	0.023 9	0.764 14	0.523 11	0.707 14	0.264 11	0.633 14	0.922 14	0.507 13	0.886 1	0.804 15	0.179 15	0.436 16	0.300 12	0.656 16	0.529 3	0.501 15	0.394 13	0.296 16	0.820 5	0.603 9	0.131 3	0.179 17	0.619 3	0.000 1	0.707 16	0.865 13	0.773 6	0.171 7	0.010 6	0.484 14	0.063 13	0.463 13	0.254 13	0.332 16	0.649 11	0.220 11	0.100 11	0.729 15	0.613 15	0.071 13	0.582 14	0.628 7	0.702 4	0.424 15	0.749 2	0.137 15	0.000 3	0.142 13	0.360 13	0.863 6	0.305 14	0.877 10	0.000 7	0.173 5	0.606 12	0.337 14	0.478 12	0.154 15	0.000 1	0.253 14	0.664 8	0.000 4	0.000 9	0.000 1	0.000 6	0.626 13	0.782 10	0.302 16	0.602 7	0.185 13	0.282 6	0.651 13	0.317 13	0.000 3	0.000 7	0.000 1	0.022 13	0.000 4	0.154 2	0.876 9	0.000 1	0.014 9	0.063 9	0.029 17	0.553 7	0.467 3	0.084 13	0.124 14	0.157 16	0.049 12	0.373 13	0.252 9	0.097 15	0.000 4	0.219 7	0.542 3	0.000 3	0.392 7	0.172 8	0.000 15	0.339 9	0.417 8	0.533 13	0.093 15	0.115 10	0.195 9	0.000 1	0.516 10	0.288 15	0.741 6	0.000 1	0.001 10	0.233 9	0.056 14	0.000 7	0.159 6	0.334 7	0.077 9	0.000 8	0.000 11	0.000 1	0.000 5	0.749 13	0.000 1	0.411 8	0.000 1	0.008 11	0.452 10	0.000 1	0.595 10	0.000 1	0.000 1	0.220 10	0.006 12	0.894 12	0.006 8	0.000 11	0.000 1	0.000 9	0.000 1	0.112 6	0.504 8	0.404 10	0.551 3	0.093 4	0.129 14	0.484 10	0.381 17	0.000 12	0.000 1	0.396 14	0.000 2	0.000 2	0.620 3	0.402 17	0.000 3	0.000 1	0.000 1	0.142 9	0.000 7	0.000 3	0.512 9	0.000 1
: Long-Tailed 3D Semantic Segmentation with Adaptive Weight Constraint and Sampling. ICRA 2024
Minkowski 34D	0.253 16	0.463 16	0.154 17	0.102 16	0.771 16	0.650 16	0.932 15	0.483 16	0.571 16	0.710 15	0.331 16	0.250 16	0.492 14	0.044 6	0.703 16	0.419 17	0.606 17	0.227 16	0.621 16	0.865 17	0.531 8	0.771 17	0.813 14	0.291 11	0.484 15	0.242 16	0.612 17	0.282 17	0.440 17	0.351 15	0.299 15	0.622 16	0.593 11	0.027 11	0.293 13	0.310 17	0.000 1	0.757 14	0.858 14	0.737 12	0.150 9	0.164 1	0.368 17	0.084 8	0.381 16	0.142 17	0.357 15	0.720 10	0.214 12	0.092 14	0.724 16	0.596 17	0.056 14	0.655 9	0.525 14	0.581 15	0.352 17	0.594 15	0.056 17	0.000 3	0.014 17	0.224 15	0.772 15	0.205 17	0.720 16	0.000 7	0.159 7	0.531 16	0.163 17	0.294 16	0.136 17	0.000 1	0.169 16	0.589 14	0.000 4	0.000 9	0.000 1	0.002 4	0.663 10	0.466 17	0.265 17	0.582 10	0.337 10	0.016 15	0.559 15	0.084 17	0.000 3	0.000 7	0.000 1	0.036 5	0.000 4	0.125 5	0.670 13	0.000 1	0.102 3	0.071 8	0.164 15	0.406 9	0.386 7	0.046 16	0.068 17	0.159 15	0.117 6	0.284 16	0.111 16	0.094 16	0.000 4	0.000 17	0.197 16	0.000 3	0.044 15	0.013 15	0.002 14	0.228 17	0.307 17	0.588 11	0.025 17	0.545 5	0.134 15	0.000 1	0.655 4	0.302 14	0.282 17	0.000 1	0.060 2	0.000 12	0.035 17	0.000 7	0.000 10	0.097 17	0.000 12	0.000 8	0.005 10	0.000 1	0.000 5	0.096 17	0.000 1	0.334 16	0.000 1	0.000 12	0.274 16	0.000 1	0.513 14	0.000 1	0.000 1	0.280 8	0.194 9	0.897 11	0.000 9	0.000 11	0.000 1	0.000 9	0.000 1	0.108 9	0.279 17	0.189 16	0.141 17	0.059 14	0.272 2	0.307 17	0.445 10	0.003 10	0.000 1	0.353 15	0.000 2	0.026 1	0.000 11	0.581 15	0.001 2	0.000 1	0.000 1	0.093 17	0.002 6	0.000 3	0.000 11	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
CSC-Pretrain	0.249 17	0.455 17	0.171 16	0.079 17	0.766 17	0.659 15	0.930 17	0.494 14	0.542 17	0.700 17	0.314 17	0.215 17	0.430 17	0.121 1	0.697 17	0.441 16	0.683 16	0.235 14	0.609 17	0.895 16	0.476 15	0.816 16	0.770 17	0.186 14	0.634 6	0.216 17	0.734 9	0.340 16	0.471 16	0.307 16	0.293 17	0.591 17	0.542 15	0.076 7	0.205 16	0.464 14	0.000 1	0.484 17	0.832 16	0.766 7	0.052 16	0.000 7	0.413 16	0.059 14	0.418 15	0.222 16	0.318 17	0.609 14	0.206 13	0.112 9	0.743 14	0.625 14	0.076 9	0.579 15	0.548 13	0.590 14	0.371 16	0.552 17	0.081 16	0.003 2	0.142 13	0.201 16	0.638 17	0.233 16	0.686 17	0.000 7	0.142 9	0.444 17	0.375 13	0.247 17	0.198 14	0.000 1	0.128 17	0.454 17	0.019 2	0.097 1	0.000 1	0.000 6	0.553 14	0.557 15	0.373 13	0.545 14	0.164 14	0.014 16	0.547 16	0.174 15	0.000 3	0.002 5	0.000 1	0.037 4	0.000 4	0.063 11	0.664 14	0.000 1	0.000 10	0.130 2	0.170 14	0.152 16	0.335 10	0.079 14	0.110 15	0.175 14	0.098 9	0.175 17	0.166 15	0.045 17	0.207 2	0.014 14	0.465 5	0.000 3	0.001 17	0.001 17	0.046 12	0.299 15	0.327 16	0.537 12	0.033 16	0.012 17	0.186 10	0.000 1	0.205 15	0.377 13	0.463 16	0.000 1	0.058 3	0.000 12	0.055 15	0.041 1	0.000 10	0.105 16	0.000 12	0.000 8	0.000 11	0.000 1	0.000 5	0.398 15	0.000 1	0.308 17	0.000 1	0.000 12	0.319 15	0.000 1	0.543 12	0.000 1	0.000 1	0.062 15	0.004 13	0.862 15	0.000 9	0.000 11	0.000 1	0.000 9	0.000 1	0.123 5	0.316 16	0.225 15	0.250 13	0.094 3	0.180 5	0.332 14	0.441 11	0.000 12	0.000 1	0.310 16	0.000 2	0.000 2	0.000 11	0.592 14	0.000 3	0.000 1	0.000 1	0.203 3	0.000 7	0.000 3	0.000 11	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
L3DETR-ScanNet_200	0.336 8	0.533 11	0.279 6	0.155 10	0.801 9	0.689 4	0.946 6	0.539 11	0.660 7	0.759 4	0.380 14	0.333 14	0.583 4	0.000 14	0.788 10	0.529 10	0.740 8	0.261 12	0.679 9	0.940 12	0.525 10	0.860 8	0.883 7	0.226 13	0.613 9	0.397 6	0.720 11	0.512 5	0.565 12	0.620 3	0.417 4	0.775 13	0.629 6	0.158 2	0.298 12	0.579 11	0.000 1	0.835 6	0.883 6	0.927 1	0.114 11	0.079 4	0.511 10	0.073 11	0.508 5	0.312 6	0.629 6	0.861 5	0.192 14	0.098 13	0.908 3	0.636 11	0.032 17	0.563 17	0.514 15	0.664 6	0.505 10	0.697 7	0.225 9	0.000 3	0.264 2	0.411 12	0.860 8	0.321 13	0.960 3	0.058 6	0.109 13	0.776 3	0.526 5	0.557 3	0.303 9	0.000 1	0.339 12	0.712 7	0.000 4	0.014 7	0.000 1	0.000 6	0.638 12	0.856 4	0.641 7	0.579 11	0.107 17	0.119 11	0.661 11	0.416 7	0.000 3	0.000 7	0.000 1	0.007 17	0.000 4	0.067 10	0.910 5	0.000 1	0.000 10	0.000 10	0.463 11	0.448 8	0.294 14	0.324 1	0.293 3	0.211 8	0.108 8	0.448 8	0.068 17	0.141 6	0.000 4	0.330 3	0.699 1	0.000 3	0.256 11	0.192 6	0.000 15	0.355 8	0.418 7	0.209 17	0.146 12	0.679 3	0.101 17	0.000 1	0.503 13	0.687 2	0.671 8	0.000 1	0.000 11	0.174 11	0.117 6	0.000 7	0.122 7	0.515 2	0.104 6	0.259 2	0.312 3	0.000 1	0.000 5	0.765 12	0.000 1	0.369 12	0.000 1	0.183 8	0.422 11	0.000 1	0.646 4	0.000 1	0.000 1	0.565 2	0.001 14	0.125 17	0.010 7	0.002 10	0.000 1	0.487 1	0.000 1	0.075 14	0.548 4	0.420 9	0.233 14	0.082 8	0.138 11	0.430 12	0.427 13	0.000 12	0.000 1	0.549 6	0.000 2	0.000 2	0.074 8	0.409 16	0.000 3	0.000 1	0.000 1	0.152 7	0.051 3	0.000 3	0.598 6	0.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, Jian Zhang: Language-Assisted 3D Scene Understanding. arXiv23.12
OctFormer ScanNet200	0.326 13	0.539 10	0.265 10	0.131 12	0.806 8	0.670 12	0.943 9	0.535 12	0.662 4	0.705 16	0.423 9	0.407 6	0.505 13	0.003 11	0.765 13	0.582 7	0.686 15	0.227 16	0.680 8	0.943 10	0.601 2	0.854 10	0.892 6	0.335 6	0.417 17	0.357 10	0.724 10	0.453 11	0.632 7	0.596 5	0.432 3	0.783 11	0.512 16	0.021 12	0.244 15	0.637 2	0.000 1	0.787 12	0.873 9	0.743 11	0.000 17	0.000 7	0.534 9	0.110 4	0.499 6	0.289 10	0.626 7	0.620 12	0.168 15	0.204 4	0.849 10	0.679 8	0.117 5	0.633 11	0.684 3	0.650 8	0.552 5	0.684 9	0.312 3	0.000 3	0.175 11	0.429 11	0.865 5	0.413 4	0.837 12	0.000 7	0.145 8	0.626 9	0.451 8	0.487 11	0.513 3	0.000 1	0.529 7	0.613 12	0.000 4	0.033 6	0.000 1	0.000 6	0.828 5	0.871 3	0.622 9	0.587 9	0.411 7	0.137 10	0.645 14	0.343 12	0.000 3	0.000 7	0.000 1	0.022 13	0.000 4	0.026 17	0.829 11	0.000 1	0.022 8	0.089 6	0.842 4	0.253 14	0.318 11	0.296 2	0.178 11	0.291 3	0.224 3	0.584 2	0.200 14	0.132 8	0.000 4	0.128 11	0.227 13	0.000 3	0.230 13	0.047 11	0.149 8	0.331 10	0.412 9	0.618 7	0.164 10	0.102 11	0.522 3	0.000 1	0.655 4	0.378 12	0.469 15	0.000 1	0.000 11	0.000 12	0.105 9	0.000 7	0.000 10	0.483 3	0.000 12	0.000 8	0.028 8	0.000 1	0.000 5	0.906 1	0.000 1	0.339 15	0.000 1	0.000 12	0.457 9	0.000 1	0.612 8	0.000 1	0.000 1	0.408 4	0.000 15	0.900 10	0.000 9	0.000 11	0.000 1	0.029 8	0.000 1	0.074 15	0.455 15	0.479 6	0.427 7	0.079 9	0.140 8	0.496 8	0.414 14	0.022 6	0.000 1	0.471 13	0.000 2	0.000 2	0.000 11	0.722 7	0.000 3	0.000 1	0.000 1	0.138 13	0.000 7	0.000 3	0.000 11	0.000 1
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
IMFSegNet	0.334 9	0.532 13	0.251 11	0.179 7	0.799 11	0.683 8	0.940 10	0.555 8	0.631 12	0.740 11	0.406 10	0.336 13	0.560 9	0.062 4	0.795 7	0.518 12	0.733 10	0.274 5	0.646 13	0.947 8	0.458 17	0.848 13	0.862 10	0.305 10	0.649 4	0.284 13	0.713 13	0.495 8	0.626 8	0.527 9	0.363 9	0.820 5	0.574 13	0.010 14	0.411 4	0.597 7	0.000 1	0.842 4	0.873 9	0.704 14	0.246 4	0.000 7	0.495 11	0.041 16	0.486 9	0.305 7	0.444 12	0.604 15	0.134 16	0.055 16	0.852 9	0.633 13	0.076 9	0.792 4	0.612 8	0.573 17	0.484 12	0.668 12	0.216 12	0.000 3	0.197 9	0.518 6	0.784 13	0.344 12	0.908 7	0.283 4	0.190 4	0.599 13	0.439 10	0.496 10	0.569 2	0.000 1	0.392 9	0.776 3	0.000 4	0.064 4	0.000 1	0.000 6	0.710 9	0.756 12	0.508 11	0.512 16	0.159 15	0.034 14	0.773 2	0.363 10	0.000 3	0.000 7	0.000 1	0.032 7	0.000 4	0.029 16	0.648 16	0.000 1	0.000 10	0.000 10	0.830 6	0.595 4	0.274 15	0.228 8	0.206 8	0.188 12	0.000 14	0.425 9	0.237 11	0.123 12	0.000 4	0.277 6	0.214 14	0.003 1	0.610 2	0.044 12	0.124 10	0.320 14	0.408 11	0.594 9	0.196 7	0.213 7	0.139 13	0.000 1	0.615 6	0.618 6	0.839 3	0.000 1	0.014 6	0.260 6	0.080 12	0.025 2	0.000 10	0.139 12	0.135 5	0.035 7	0.000 11	0.000 1	0.793 2	0.799 9	0.000 1	0.357 13	0.000 1	0.369 5	0.359 13	0.000 1	0.512 15	0.000 1	0.000 1	0.120 12	0.424 2	0.903 8	0.027 5	0.091 6	0.000 1	0.245 5	0.000 1	0.073 16	0.457 14	0.340 12	0.191 15	0.021 15	0.009 17	0.322 15	0.608 6	0.060 3	0.000 1	0.494 10	0.000 2	0.000 2	0.068 10	0.624 11	0.000 3	0.000 1	0.000 1	0.139 11	0.047 4	0.000 3	0.561 7	0.000 1

GSTran	0.334 10	0.533 12	0.250 12	0.179 8	0.799 11	0.684 7	0.940 10	0.554 9	0.633 11	0.741 10	0.405 11	0.337 12	0.560 9	0.060 5	0.794 8	0.517 13	0.732 11	0.274 5	0.647 12	0.948 7	0.459 16	0.849 11	0.864 9	0.306 9	0.648 5	0.282 14	0.717 12	0.496 7	0.624 9	0.533 8	0.363 9	0.821 4	0.573 14	0.009 15	0.411 4	0.593 9	0.000 1	0.841 5	0.873 9	0.704 14	0.242 5	0.000 7	0.495 11	0.041 16	0.487 8	0.304 8	0.439 13	0.613 13	0.133 17	0.055 16	0.853 8	0.634 12	0.075 12	0.791 5	0.601 9	0.574 16	0.483 13	0.669 11	0.217 10	0.000 3	0.198 8	0.518 6	0.782 14	0.345 11	0.914 6	0.273 5	0.193 3	0.598 14	0.440 9	0.499 8	0.570 1	0.000 1	0.381 11	0.775 4	0.000 4	0.063 5	0.000 1	0.000 6	0.712 8	0.752 13	0.507 12	0.512 16	0.158 16	0.036 13	0.773 2	0.361 11	0.000 3	0.000 7	0.000 1	0.032 7	0.000 4	0.032 15	0.651 15	0.000 1	0.000 10	0.000 10	0.831 5	0.595 4	0.273 16	0.229 7	0.200 9	0.191 10	0.000 14	0.425 9	0.233 12	0.125 11	0.000 4	0.279 5	0.213 15	0.003 1	0.608 3	0.044 12	0.138 9	0.321 12	0.408 11	0.593 10	0.198 5	0.205 8	0.139 13	0.000 1	0.614 7	0.609 7	0.838 4	0.000 1	0.014 6	0.260 6	0.080 12	0.010 5	0.000 10	0.136 13	0.136 4	0.047 6	0.000 11	0.000 1	0.787 3	0.797 10	0.000 1	0.354 14	0.000 1	0.372 4	0.357 14	0.000 1	0.507 16	0.000 1	0.000 1	0.121 11	0.423 3	0.903 8	0.028 4	0.089 7	0.000 1	0.252 4	0.000 1	0.072 17	0.465 12	0.340 12	0.189 16	0.020 16	0.011 16	0.320 16	0.606 7	0.060 3	0.000 1	0.496 9	0.000 2	0.000 2	0.070 9	0.618 13	0.000 3	0.000 1	0.000 1	0.139 11	0.047 4	0.000 3	0.558 8	0.000 1

This table lists the benchmark results for the ScanNet200 3D semantic instance scenario.

Method	avg ap 25%	head ap 25%	common ap 25%	tail ap 25%	chair	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

ODIN - Ins200	0.451 1	0.637 2	0.407 1	0.277 1	0.742 6	0.699 3	0.855 1	0.826 6	0.626 1	0.441 1	0.742 3	0.003 3	0.941 3	0.637 1	0.910 2	0.616 5	0.679 3	0.944 5	0.695 3	0.877 3	0.763 1	0.357 2	0.723 5	0.475 1	0.779 5	0.494 1	0.782 2	0.795 1	0.334 1	0.824 1	0.867 3	0.108 3	0.701 1	0.638 1	0.000 3	0.873 1	0.749 2	0.667 6	0.203 1	0.500 3	0.886 1	0.116 1	0.583 5	0.571 1	0.688 1	1.000 1	0.760 1	0.162 3	1.000 1	0.852 2	0.078 3	0.833 5	0.887 1	0.778 1	0.577 1	0.859 4	0.550 1	0.000 3	0.542 3	0.028 5	0.667 3	0.874 1	1.000 1	0.125 1	0.232 4	0.870 2	0.406 2	0.337 3	0.167 2	0.000 2	0.671 1	0.742 2	0.500 1	0.000 2	0.000 1	0.528 1	1.000 1	0.417 4	0.597 1	0.872 1	0.275 1	0.000 4	0.800 2	0.850 1	0.000 2	0.528 1	0.000 3	0.215 3	0.000 1	0.238 1	0.667 1	0.000 3	0.019 3	0.250 4	1.000 1	0.429 4	0.599 2	0.778 2	0.221 1	0.370 1	0.284 1	0.278 6	0.400 3	0.125 1	0.000 1	0.200 3	0.404 2	0.000 1	0.250 3	0.714 1	0.500 1	0.504 3	0.769 1	0.677 3	0.750 1	0.963 1	0.500 1	0.000 1	0.500 5	0.333 5	1.000 1	0.000 1	0.000 4	0.438 1	0.500 1	0.000 3	1.000 1	0.333 3	0.226 2	0.250 3	0.250 1	0.000 3	0.000 1	0.668 3	0.000 1	0.494 5	0.000 1	0.000 3	0.750 1	0.000 1	0.833 2	0.000 1	0.000 1	0.777 3	0.333 2	0.944 2	0.000 1	0.333 1	0.000 1	1.000 1	0.000 1	0.089 3	0.407 4	0.600 1	0.823 2	0.080 2	0.264 4	0.469 4	0.717 1	0.000 2	0.000 1	0.500 2	0.000 1	0.000 1	0.000 2	1.000 1	0.125 1	0.333 1	0.000 2	0.200 3	0.000 2	0.000 2	1.000 1	0.000 1

Mask3D Scannet200	0.445 2	0.653 1	0.392 2	0.254 2	0.844 2	0.746 2	0.818 2	0.888 4	0.556 2	0.262 2	0.890 1	0.025 2	1.000 1	0.608 2	0.930 1	0.694 3	0.721 1	0.930 6	0.686 4	0.966 1	0.615 5	0.440 1	0.725 4	0.201 2	0.890 3	0.414 5	0.827 1	0.552 2	0.158 6	0.806 2	0.924 1	0.042 4	0.512 3	0.412 6	0.226 1	0.604 4	0.830 1	1.000 1	0.125 2	0.792 1	0.815 2	0.097 2	0.648 1	0.551 3	0.354 5	1.000 1	0.630 2	0.241 2	1.000 1	0.853 1	0.204 1	0.974 4	0.841 2	0.778 1	0.358 3	0.927 1	0.300 2	0.045 1	0.640 1	0.363 1	0.745 2	0.710 2	1.000 1	0.000 2	0.330 2	0.943 1	0.315 3	0.600 1	1.000 1	0.027 1	0.080 6	0.556 6	0.500 1	0.409 1	0.000 1	0.194 2	1.000 1	0.500 1	0.493 3	0.761 3	0.053 5	0.042 3	0.780 3	0.454 2	0.009 1	0.333 2	0.050 1	0.321 1	0.000 1	0.084 2	0.552 3	0.008 2	0.027 2	0.750 1	0.500 2	0.442 3	0.657 1	0.765 3	0.120 3	0.183 4	0.021 3	1.000 1	0.510 2	0.016 2	0.000 1	0.400 1	0.619 1	0.000 1	0.396 1	0.290 2	0.000 2	0.741 1	0.699 2	1.000 1	0.260 2	0.017 4	0.125 6	0.000 1	0.792 4	0.399 4	1.000 1	0.000 1	0.049 3	0.265 2	0.063 4	0.000 3	1.000 1	0.335 2	0.381 1	0.500 1	0.250 1	0.004 2	0.000 1	0.727 2	0.000 1	0.538 3	0.000 1	0.188 1	0.677 3	0.000 1	0.930 1	0.000 1	0.000 1	0.966 1	0.391 1	0.908 3	0.000 1	0.028 2	0.000 1	1.000 1	0.000 1	0.152 1	0.451 2	0.458 2	0.971 1	0.573 1	0.606 1	0.167 6	0.625 2	0.004 1	0.000 1	0.058 6	0.000 1	0.000 1	1.000 1	1.000 1	0.000 2	0.056 2	0.000 2	0.200 3	0.309 1	0.000 2	1.000 1	0.000 1
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
CSC-Pretrain Inst.	0.275 6	0.466 6	0.218 5	0.110 6	0.783 5	0.383 6	0.783 5	0.829 5	0.367 5	0.168 6	0.305 6	0.000 4	0.661 6	0.413 6	0.869 3	0.719 1	0.546 6	0.997 3	0.685 5	0.841 5	0.555 6	0.277 5	0.768 2	0.132 4	0.779 5	0.448 4	0.364 6	0.212 6	0.161 5	0.768 3	0.692 6	0.000 5	0.395 4	0.500 3	0.000 3	0.450 6	0.591 4	1.000 1	0.020 6	0.000 4	0.423 6	0.007 6	0.625 3	0.420 4	0.505 4	1.000 1	0.353 3	0.119 6	0.571 5	0.819 3	0.014 4	1.000 1	0.774 3	0.689 5	0.311 6	0.866 2	0.067 4	0.000 3	0.400 4	0.000 6	0.278 6	0.501 4	1.000 1	0.000 2	0.162 6	0.584 6	0.286 4	0.206 6	0.125 3	0.000 2	0.084 5	0.649 3	0.000 4	0.000 2	0.000 1	0.000 3	0.000 4	0.125 5	0.312 5	0.727 4	0.221 3	0.000 4	0.667 5	0.114 4	0.000 2	0.000 4	0.000 3	0.065 6	0.000 1	0.004 5	0.278 4	0.000 3	0.000 4	0.500 2	0.000 5	0.571 1	0.000 6	0.250 5	0.019 6	0.145 6	0.000 5	0.667 2	0.200 5	0.000 3	0.000 1	0.200 3	0.258 5	0.000 1	0.000 5	0.000 5	0.000 2	0.369 5	0.429 4	0.613 5	0.000 6	0.000 5	0.500 1	0.000 1	0.500 5	0.333 5	0.500 5	0.000 1	0.106 1	0.000 4	0.000 5	0.000 3	0.000 4	0.333 3	0.000 4	0.000 4	0.000 4	0.000 3	0.000 1	0.918 1	0.000 1	0.638 1	0.000 1	0.000 3	0.750 1	0.000 1	0.833 2	0.000 1	0.000 1	0.143 6	0.000 6	0.750 4	0.000 1	0.000 4	0.000 1	0.000 3	0.000 1	0.063 5	0.377 5	0.200 4	0.222 6	0.055 5	0.500 2	0.677 2	0.250 5	0.000 2	0.000 1	0.500 2	0.000 1	0.000 1	0.000 2	0.500 3	0.000 2	0.000 3	0.000 2	0.115 6	0.000 2	0.000 2	0.000 3	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
LGround Inst.	0.314 4	0.529 4	0.225 4	0.155 4	0.810 3	0.625 4	0.798 4	0.940 2	0.372 4	0.217 4	0.484 4	0.000 4	0.927 4	0.528 3	0.826 6	0.694 2	0.605 4	1.000 1	0.731 2	0.846 4	0.716 4	0.350 3	0.589 6	0.123 5	0.857 4	0.457 3	0.578 4	0.376 5	0.183 3	0.765 4	0.800 4	0.000 5	0.278 5	0.500 3	0.000 3	0.659 3	0.569 5	1.000 1	0.093 4	0.000 4	0.539 4	0.010 4	0.578 6	0.378 5	0.571 3	1.000 1	0.337 4	0.252 1	0.530 6	0.814 4	0.000 5	0.744 6	0.743 4	0.746 4	0.346 4	0.863 3	0.067 4	0.000 3	0.400 4	0.167 3	0.667 3	0.488 5	1.000 1	0.000 2	0.208 5	0.783 4	0.166 5	0.375 2	0.071 6	0.000 2	0.200 2	0.607 5	0.000 4	0.000 2	0.000 1	0.000 3	1.000 1	0.500 1	0.517 2	0.716 5	0.221 3	0.000 4	0.706 4	0.085 6	0.000 2	0.000 4	0.000 3	0.077 5	0.000 1	0.063 4	0.278 4	0.000 3	0.000 4	0.500 2	0.083 4	0.181 6	0.515 3	0.286 4	0.144 2	0.219 3	0.042 2	0.582 4	0.400 3	0.000 3	0.000 1	0.000 6	0.305 3	0.000 1	0.000 5	0.036 4	0.000 2	0.413 4	0.500 3	0.533 6	0.250 3	0.200 3	0.500 1	0.000 1	1.000 1	0.472 1	1.000 1	0.000 1	0.000 4	0.000 4	0.250 2	0.000 3	0.000 4	0.333 3	0.000 4	0.000 4	0.000 4	0.000 3	0.000 1	0.600 4	0.000 1	0.594 2	0.000 1	0.000 3	0.500 4	0.000 1	0.647 6	0.000 1	0.000 1	0.429 4	0.333 2	0.500 6	0.000 1	0.000 4	0.000 1	0.000 3	0.000 1	0.069 4	0.696 1	0.050 6	0.556 4	0.031 6	0.042 6	0.750 1	0.250 5	0.000 2	0.000 1	0.630 1	0.000 1	0.000 1	0.000 2	0.500 3	0.000 2	0.000 3	0.000 2	0.400 2	0.000 2	0.000 2	0.000 3	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild.
Minkowski 34D Inst.	0.280 5	0.488 5	0.192 6	0.124 5	0.804 4	0.518 5	0.772 6	0.904 3	0.337 6	0.191 5	0.443 5	0.000 4	0.861 5	0.502 5	0.868 5	0.669 4	0.587 5	0.997 3	0.467 6	0.828 6	0.732 3	0.342 4	0.745 3	0.119 6	0.918 2	0.404 6	0.419 5	0.398 4	0.172 4	0.618 6	0.743 5	0.167 2	0.077 6	0.500 3	0.000 3	0.568 5	0.506 6	1.000 1	0.044 5	0.000 4	0.502 5	0.010 5	0.593 4	0.284 6	0.305 6	0.903 6	0.213 5	0.142 5	0.981 4	0.790 5	0.000 5	1.000 1	0.715 5	0.538 6	0.346 5	0.830 6	0.067 4	0.000 3	0.400 4	0.074 4	0.333 5	0.551 3	1.000 1	0.000 2	0.292 3	0.777 5	0.118 6	0.317 4	0.100 5	0.000 2	0.191 3	0.648 4	0.000 4	0.000 2	0.000 1	0.000 3	0.000 4	0.500 1	0.213 6	0.825 2	0.021 6	0.333 1	0.648 6	0.098 5	0.000 2	0.000 4	0.000 3	0.077 4	0.000 1	0.000 6	0.150 6	0.000 3	0.000 4	0.000 6	0.225 3	0.281 5	0.447 5	0.000 6	0.090 5	0.148 5	0.000 5	0.479 5	0.542 1	0.000 3	0.000 1	0.200 3	0.131 6	0.000 1	0.250 3	0.000 5	0.000 2	0.159 6	0.396 5	0.677 3	0.021 5	0.000 5	0.500 1	0.000 1	1.000 1	0.442 3	0.125 6	0.000 1	0.000 4	0.000 4	0.000 5	0.333 1	0.000 4	0.528 1	0.000 4	0.000 4	0.000 4	0.000 3	0.000 1	0.200 6	0.000 1	0.516 4	0.000 1	0.000 3	0.500 4	0.000 1	0.833 2	0.000 1	0.000 1	0.286 5	0.083 5	0.750 4	0.000 1	0.000 4	0.000 1	0.000 3	0.000 1	0.059 6	0.445 3	0.200 4	0.535 5	0.070 3	0.167 5	0.385 5	0.375 4	0.000 2	0.000 1	0.333 4	0.000 1	0.000 1	0.000 2	0.500 3	0.000 2	0.000 3	0.000 2	0.200 3	0.000 2	0.000 2	0.000 3	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
TD3D Scannet200	0.379 3	0.603 3	0.306 3	0.190 3	0.885 1	0.755 1	0.800 3	0.958 1	0.390 3	0.260 3	0.866 2	0.232 1	0.979 2	0.523 4	0.869 4	0.559 6	0.689 2	1.000 1	0.795 1	0.905 2	0.748 2	0.173 6	0.825 1	0.173 3	0.970 1	0.457 2	0.615 3	0.456 3	0.200 2	0.621 5	0.906 2	0.553 1	0.517 2	0.510 2	0.220 2	0.715 2	0.706 3	1.000 1	0.113 3	0.792 1	0.717 3	0.073 3	0.635 2	0.557 2	0.638 2	1.000 1	0.205 6	0.146 4	1.000 1	0.769 6	0.186 2	1.000 1	0.710 6	0.778 1	0.415 2	0.834 5	0.226 3	0.021 2	0.590 2	0.356 2	0.817 1	0.477 6	1.000 1	0.000 2	0.635 1	0.843 3	0.427 1	0.270 5	0.125 3	0.000 2	0.102 4	1.000 1	0.125 3	0.000 2	0.000 1	0.000 3	0.000 4	0.125 5	0.370 4	0.622 6	0.221 2	0.196 2	0.836 1	0.288 3	0.000 2	0.093 3	0.020 2	0.294 2	0.000 1	0.075 3	0.667 1	0.038 1	0.111 1	0.250 4	0.000 5	0.526 2	0.495 4	0.908 1	0.111 4	0.259 2	0.003 4	0.667 2	0.045 6	0.000 3	0.000 1	0.400 1	0.274 4	0.000 1	0.274 2	0.226 3	0.000 2	0.520 2	0.302 6	0.731 2	0.103 4	0.458 2	0.500 1	0.000 1	1.000 1	0.472 1	0.792 4	0.000 1	0.088 2	0.061 3	0.250 2	0.009 2	0.250 3	0.333 3	0.181 3	0.396 2	0.051 3	0.012 1	0.000 1	0.458 5	0.000 1	0.424 6	0.000 1	0.101 2	0.390 6	0.000 1	0.833 2	0.000 1	0.000 1	0.857 2	0.222 4	1.000 1	0.000 1	0.003 3	0.000 1	0.000 3	0.000 1	0.102 2	0.275 6	0.400 3	0.735 3	0.061 4	0.433 3	0.533 3	0.625 2	0.000 2	0.000 1	0.259 5	0.000 1	0.000 1	0.000 2	0.500 3	0.000 2	0.000 3	1.000 1	0.600 1	0.000 2	0.250 1	0.000 3	0.000 1
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024

ScanNet Benchmark

This table lists the benchmark results for the 3D semantic label scenario.

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

PTv3-PPT-ALC	0.798 1	0.911 11	0.812 22	0.854 8	0.770 12	0.856 15	0.555 17	0.943 1	0.660 26	0.735 2	0.979 1	0.606 7	0.492 1	0.792 4	0.934 4	0.841 2	0.819 6	0.716 9	0.947 10	0.906 1	0.822 1
Guangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum: ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding. CVPR 2025
DITR ScanNet	0.797 2	0.727 76	0.869 1	0.882 1	0.785 6	0.868 7	0.578 5	0.943 1	0.744 1	0.727 3	0.979 1	0.627 2	0.364 9	0.824 1	0.949 2	0.779 15	0.844 1	0.757 1	0.982 1	0.905 2	0.802 3
Karim Abou Zeid, Kadir Yilmaz, Daan de Geus, Alexander Hermans, David Adrian, Timm Linder, Bastian Leibe: DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation.
PTv3 ScanNet	0.794 3	0.941 3	0.813 21	0.851 11	0.782 7	0.890 2	0.597 1	0.916 6	0.696 11	0.713 5	0.979 1	0.635 1	0.384 3	0.793 3	0.907 10	0.821 5	0.790 36	0.696 14	0.967 4	0.903 3	0.805 2
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
PonderV2	0.785 4	0.978 1	0.800 30	0.833 29	0.788 4	0.853 20	0.545 21	0.910 9	0.713 3	0.705 6	0.979 1	0.596 9	0.390 2	0.769 15	0.832 45	0.821 5	0.792 35	0.730 2	0.975 2	0.897 6	0.785 7
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
Mix3D	0.781 5	0.964 2	0.855 2	0.843 20	0.781 8	0.858 13	0.575 8	0.831 39	0.685 17	0.714 4	0.979 1	0.594 10	0.310 30	0.801 2	0.892 19	0.841 2	0.819 6	0.723 6	0.940 15	0.887 8	0.725 28
Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann: Mix3D: Out-of-Context Data Augmentation for 3D Scenes. 3DV 2021 (Oral)
Swin3D	0.779 6	0.861 23	0.818 16	0.836 26	0.790 3	0.875 4	0.576 7	0.905 10	0.704 7	0.739 1	0.969 12	0.611 3	0.349 12	0.756 25	0.958 1	0.702 51	0.805 19	0.708 10	0.916 39	0.898 5	0.801 4

TTT-KD	0.773 7	0.646 97	0.818 16	0.809 41	0.774 10	0.878 3	0.581 3	0.943 1	0.687 15	0.704 7	0.978 6	0.607 6	0.336 19	0.775 11	0.912 8	0.838 4	0.823 4	0.694 15	0.967 4	0.899 4	0.794 6
Lisa Weijler, Muhammad Jehanzeb Mirza, Leon Sick, Can Ekkazan, Pedro Hermosilla: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models.
ResLFE_HDS	0.772 8	0.939 4	0.824 7	0.854 8	0.771 11	0.840 35	0.564 13	0.900 12	0.686 16	0.677 14	0.961 18	0.537 36	0.348 13	0.769 15	0.903 12	0.785 13	0.815 9	0.676 26	0.939 16	0.880 13	0.772 11

PPT-SpUNet-Joint	0.766 9	0.932 5	0.794 36	0.829 31	0.751 26	0.854 18	0.540 25	0.903 11	0.630 39	0.672 17	0.963 16	0.565 26	0.357 10	0.788 5	0.900 14	0.737 31	0.802 20	0.685 20	0.950 8	0.887 8	0.780 8
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer	0.766 9	0.925 7	0.808 26	0.849 13	0.786 5	0.846 30	0.566 12	0.876 19	0.690 13	0.674 16	0.960 19	0.576 22	0.226 73	0.753 27	0.904 11	0.777 16	0.815 9	0.722 7	0.923 31	0.877 16	0.776 10
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
CU-Hybrid Net	0.764 11	0.924 8	0.819 14	0.840 23	0.757 21	0.853 20	0.580 4	0.848 31	0.709 5	0.643 27	0.958 23	0.587 16	0.295 38	0.753 27	0.884 23	0.758 23	0.815 9	0.725 5	0.927 27	0.867 27	0.743 19

OccuSeg+Semantic	0.764 11	0.758 61	0.796 34	0.839 24	0.746 30	0.907 1	0.562 14	0.850 30	0.680 19	0.672 17	0.978 6	0.610 4	0.335 21	0.777 9	0.819 49	0.847 1	0.830 3	0.691 17	0.972 3	0.885 10	0.727 26

O-CNN	0.762 13	0.924 8	0.823 8	0.844 19	0.770 12	0.852 22	0.577 6	0.847 33	0.711 4	0.640 31	0.958 23	0.592 11	0.217 79	0.762 20	0.888 20	0.758 23	0.813 13	0.726 4	0.932 25	0.868 26	0.744 18
Peng-Shuai Wang, Yang Liu, Yu-Xiao Guo, Chun-Yu Sun, Xin Tong: O-CNN: Octree-based Convolutional Neural Networks for 3D Shape Analysis. SIGGRAPH 2017
DiffSegNet	0.758 14	0.725 78	0.789 41	0.843 20	0.762 17	0.856 15	0.562 14	0.920 4	0.657 29	0.658 21	0.958 23	0.589 14	0.337 18	0.782 6	0.879 24	0.787 11	0.779 41	0.678 22	0.926 29	0.880 13	0.799 5

DTC	0.757 15	0.843 29	0.820 12	0.847 16	0.791 2	0.862 11	0.511 38	0.870 22	0.707 6	0.652 23	0.954 40	0.604 8	0.279 49	0.760 21	0.942 3	0.734 32	0.766 50	0.701 13	0.884 61	0.874 22	0.736 20

OA-CNN-L_ScanNet20	0.756 16	0.783 47	0.826 6	0.858 6	0.776 9	0.837 39	0.548 20	0.896 15	0.649 31	0.675 15	0.962 17	0.586 17	0.335 21	0.771 14	0.802 54	0.770 19	0.787 38	0.691 17	0.936 20	0.880 13	0.761 13

ConDaFormer	0.755 17	0.927 6	0.822 10	0.836 26	0.801 1	0.849 25	0.516 35	0.864 27	0.651 30	0.680 13	0.958 23	0.584 19	0.282 46	0.759 23	0.855 35	0.728 34	0.802 20	0.678 22	0.880 66	0.873 23	0.756 16
Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Guisong Xia, Dacheng Tao: ConDaFormer : Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding. Neurips, 2023
LSK3DNet	0.755 17	0.899 16	0.823 8	0.843 20	0.764 16	0.838 38	0.584 2	0.845 34	0.717 2	0.638 33	0.956 30	0.580 21	0.229 72	0.640 49	0.900 14	0.750 26	0.813 13	0.729 3	0.920 35	0.872 24	0.757 14
Tuo Feng, Wenguan Wang, Fan Ma, Yi Yang: LSK3DNet: Towards Effective and Efficient 3D Perception with Large Sparse Kernels. CVPR 2024
PNE	0.755 17	0.786 45	0.835 5	0.834 28	0.758 19	0.849 25	0.570 10	0.836 38	0.648 32	0.668 19	0.978 6	0.581 20	0.367 7	0.683 40	0.856 33	0.804 8	0.801 24	0.678 22	0.961 6	0.889 7	0.716 35
P. Hermosilla: Point Neighborhood Embeddings.
PointTransformerV2	0.752 20	0.742 68	0.809 25	0.872 2	0.758 19	0.860 12	0.552 18	0.891 17	0.610 46	0.687 8	0.960 19	0.559 30	0.304 33	0.766 18	0.926 6	0.767 20	0.797 28	0.644 38	0.942 13	0.876 19	0.722 31
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao: Point Transformer V2: Grouped Vector Attention and Partition-based Pooling. NeurIPS 2022
DMF-Net	0.752 20	0.906 14	0.793 38	0.802 47	0.689 46	0.825 52	0.556 16	0.867 23	0.681 18	0.602 50	0.960 19	0.555 32	0.365 8	0.779 8	0.859 30	0.747 27	0.795 32	0.717 8	0.917 38	0.856 35	0.764 12
C.Yang, Y.Yan, W.Zhao, J.Ye, X.Yang, A.Hussain, B.Dong, K.Huang: Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic Segmentation. ICONIP 2023
PointConvFormer	0.749 22	0.793 43	0.790 39	0.807 43	0.750 28	0.856 15	0.524 31	0.881 18	0.588 58	0.642 30	0.977 10	0.591 12	0.274 52	0.781 7	0.929 5	0.804 8	0.796 29	0.642 39	0.947 10	0.885 10	0.715 36
Wenxuan Wu, Qi Shan, Li Fuxin: PointConvFormer: Revenge of the Point-based Convolution.
BPNet	0.749 22	0.909 12	0.818 16	0.811 39	0.752 24	0.839 37	0.485 53	0.842 35	0.673 21	0.644 26	0.957 28	0.528 42	0.305 32	0.773 12	0.859 30	0.788 10	0.818 8	0.693 16	0.916 39	0.856 35	0.723 30
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MSP	0.748 24	0.623 100	0.804 28	0.859 5	0.745 31	0.824 54	0.501 42	0.912 8	0.690 13	0.685 10	0.956 30	0.567 25	0.320 27	0.768 17	0.918 7	0.720 39	0.802 20	0.676 26	0.921 33	0.881 12	0.779 9

StratifiedFormer	0.747 25	0.901 15	0.803 29	0.845 18	0.757 21	0.846 30	0.512 37	0.825 42	0.696 11	0.645 25	0.956 30	0.576 22	0.262 63	0.744 33	0.861 29	0.742 29	0.770 48	0.705 11	0.899 51	0.860 32	0.734 21
Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia: Stratified Transformer for 3D Point Cloud Segmentation. CVPR 2022
Virtual MVFusion	0.746 26	0.771 55	0.819 14	0.848 15	0.702 43	0.865 10	0.397 91	0.899 13	0.699 9	0.664 20	0.948 62	0.588 15	0.330 23	0.746 32	0.851 39	0.764 21	0.796 29	0.704 12	0.935 21	0.866 28	0.728 24
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
VMNet	0.746 26	0.870 21	0.838 3	0.858 6	0.729 36	0.850 24	0.501 42	0.874 20	0.587 59	0.658 21	0.956 30	0.564 27	0.299 35	0.765 19	0.900 14	0.716 42	0.812 15	0.631 44	0.939 16	0.858 33	0.709 37
Zeyu HU, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai: VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation. ICCV 2021 (Oral)
DiffSeg3D2	0.745 28	0.725 78	0.814 20	0.837 25	0.751 26	0.831 46	0.514 36	0.896 15	0.674 20	0.684 11	0.960 19	0.564 27	0.303 34	0.773 12	0.820 48	0.713 45	0.798 27	0.690 19	0.923 31	0.875 20	0.757 14

ODIN	0.744 29	0.658 93	0.752 64	0.870 3	0.714 40	0.843 33	0.569 11	0.919 5	0.703 8	0.622 40	0.949 59	0.591 12	0.343 15	0.736 34	0.784 56	0.816 7	0.838 2	0.672 31	0.918 37	0.854 39	0.725 28
Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki: ODIN: A Single Model for 2D and 3D Segmentation. CVPR 2024
Retro-FPN	0.744 29	0.842 30	0.800 30	0.767 61	0.740 32	0.836 41	0.541 23	0.914 7	0.672 22	0.626 37	0.958 23	0.552 33	0.272 54	0.777 9	0.886 22	0.696 52	0.801 24	0.674 29	0.941 14	0.858 33	0.717 33
Peng Xiang, Xin Wen, Yu-Shen Liu, Hui Zhang, Yi Fang, Zhizhong Han: Retrospective Feature Pyramid Network for Point Cloud Semantic Segmentation. ICCV 2023
EQ-Net	0.743 31	0.620 101	0.799 33	0.849 13	0.730 35	0.822 56	0.493 50	0.897 14	0.664 23	0.681 12	0.955 34	0.562 29	0.378 4	0.760 21	0.903 12	0.738 30	0.801 24	0.673 30	0.907 43	0.877 16	0.745 17
Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya JIa: A Unified Query-based Paradigm for Point Cloud Understanding. CVPR 2022
SAT	0.742 32	0.860 24	0.765 55	0.819 34	0.769 14	0.848 27	0.533 27	0.829 40	0.663 24	0.631 36	0.955 34	0.586 17	0.274 52	0.753 27	0.896 17	0.729 33	0.760 56	0.666 33	0.921 33	0.855 37	0.733 22

LRPNet	0.742 32	0.816 38	0.806 27	0.807 43	0.752 24	0.828 50	0.575 8	0.839 37	0.699 9	0.637 34	0.954 40	0.520 46	0.320 27	0.755 26	0.834 43	0.760 22	0.772 45	0.676 26	0.915 41	0.862 30	0.717 33

LargeKernel3D	0.739 34	0.909 12	0.820 12	0.806 45	0.740 32	0.852 22	0.545 21	0.826 41	0.594 57	0.643 27	0.955 34	0.541 35	0.263 62	0.723 38	0.858 32	0.775 18	0.767 49	0.678 22	0.933 23	0.848 43	0.694 42
Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia: LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs. CVPR 2023
RPN	0.736 35	0.776 51	0.790 39	0.851 11	0.754 23	0.854 18	0.491 52	0.866 25	0.596 56	0.686 9	0.955 34	0.536 37	0.342 16	0.624 56	0.869 26	0.787 11	0.802 20	0.628 45	0.927 27	0.875 20	0.704 39

MinkowskiNet	0.736 35	0.859 25	0.818 16	0.832 30	0.709 41	0.840 35	0.521 33	0.853 29	0.660 26	0.643 27	0.951 51	0.544 34	0.286 44	0.731 36	0.893 18	0.675 61	0.772 45	0.683 21	0.874 73	0.852 41	0.727 26
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
IPCA	0.731 37	0.890 17	0.837 4	0.864 4	0.726 37	0.873 5	0.530 30	0.824 43	0.489 93	0.647 24	0.978 6	0.609 5	0.336 19	0.624 56	0.733 64	0.758 23	0.776 43	0.570 71	0.949 9	0.877 16	0.728 24

online3d	0.727 38	0.715 83	0.777 48	0.854 8	0.748 29	0.858 13	0.497 47	0.872 21	0.572 66	0.639 32	0.957 28	0.523 43	0.297 37	0.750 30	0.803 53	0.744 28	0.810 16	0.587 67	0.938 18	0.871 25	0.719 32

PointTransformer++	0.725 39	0.727 76	0.811 24	0.819 34	0.765 15	0.841 34	0.502 41	0.814 48	0.621 42	0.623 39	0.955 34	0.556 31	0.284 45	0.620 58	0.866 27	0.781 14	0.757 60	0.648 36	0.932 25	0.862 30	0.709 37

SparseConvNet	0.725 39	0.647 96	0.821 11	0.846 17	0.721 38	0.869 6	0.533 27	0.754 64	0.603 52	0.614 42	0.955 34	0.572 24	0.325 25	0.710 39	0.870 25	0.724 37	0.823 4	0.628 45	0.934 22	0.865 29	0.683 45

MatchingNet	0.724 41	0.812 40	0.812 22	0.810 40	0.735 34	0.834 43	0.495 49	0.860 28	0.572 66	0.602 50	0.954 40	0.512 48	0.280 48	0.757 24	0.845 41	0.725 36	0.780 40	0.606 55	0.937 19	0.851 42	0.700 41

INS-Conv-semantic	0.717 42	0.751 64	0.759 58	0.812 38	0.704 42	0.868 7	0.537 26	0.842 35	0.609 48	0.608 46	0.953 44	0.534 39	0.293 39	0.616 59	0.864 28	0.719 41	0.793 33	0.640 40	0.933 23	0.845 47	0.663 51

PointMetaBase	0.714 43	0.835 31	0.785 43	0.821 32	0.684 48	0.846 30	0.531 29	0.865 26	0.614 43	0.596 54	0.953 44	0.500 51	0.246 68	0.674 41	0.888 20	0.692 53	0.764 52	0.624 47	0.849 88	0.844 48	0.675 47

contrastBoundary	0.705 44	0.769 58	0.775 49	0.809 41	0.687 47	0.820 59	0.439 79	0.812 49	0.661 25	0.591 56	0.945 70	0.515 47	0.171 98	0.633 53	0.856 33	0.720 39	0.796 29	0.668 32	0.889 58	0.847 44	0.689 43
Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao: Contrastive Boundary Learning for Point Cloud Segmentation. CVPR2022
ClickSeg_Semantic	0.703 45	0.774 53	0.800 30	0.793 52	0.760 18	0.847 29	0.471 57	0.802 52	0.463 100	0.634 35	0.968 14	0.491 54	0.271 56	0.726 37	0.910 9	0.706 47	0.815 9	0.551 83	0.878 67	0.833 49	0.570 83

RFCR	0.702 46	0.889 18	0.745 70	0.813 37	0.672 51	0.818 63	0.493 50	0.815 47	0.623 40	0.610 44	0.947 64	0.470 63	0.249 67	0.594 63	0.848 40	0.705 48	0.779 41	0.646 37	0.892 56	0.823 55	0.611 66
Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma: Omni-Supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning. CVPR2021
One Thing One Click	0.701 47	0.825 35	0.796 34	0.723 68	0.716 39	0.832 45	0.433 81	0.816 45	0.634 37	0.609 45	0.969 12	0.418 89	0.344 14	0.559 75	0.833 44	0.715 43	0.808 18	0.560 77	0.902 48	0.847 44	0.680 46

JSENet	0.699 48	0.881 20	0.762 56	0.821 32	0.667 52	0.800 76	0.522 32	0.792 55	0.613 44	0.607 47	0.935 90	0.492 53	0.205 85	0.576 68	0.853 37	0.691 55	0.758 58	0.652 35	0.872 76	0.828 52	0.649 55
Zeyu HU, Mingmin Zhen, Xuyang BAI, Hongbo Fu, Chiew-lan Tai: JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D Point Clouds. ECCV 2020
One-Thing-One-Click	0.693 49	0.743 67	0.794 36	0.655 91	0.684 48	0.822 56	0.497 47	0.719 74	0.622 41	0.617 41	0.977 10	0.447 76	0.339 17	0.750 30	0.664 81	0.703 50	0.790 36	0.596 60	0.946 12	0.855 37	0.647 56
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
PicassoNet-II	0.692 50	0.732 72	0.772 50	0.786 53	0.677 50	0.866 9	0.517 34	0.848 31	0.509 86	0.626 37	0.952 49	0.536 37	0.225 75	0.545 81	0.704 71	0.689 58	0.810 16	0.564 76	0.903 47	0.854 39	0.729 23
Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian: Geometric feature learning for 3D meshes.
Feature_GeometricNet	0.690 51	0.884 19	0.754 62	0.795 50	0.647 59	0.818 63	0.422 83	0.802 52	0.612 45	0.604 48	0.945 70	0.462 66	0.189 93	0.563 74	0.853 37	0.726 35	0.765 51	0.632 43	0.904 45	0.821 58	0.606 70
Kangcheng Liu, Ben M. Chen: https://arxiv.org/abs/2012.09439. arXiv Preprint
FusionNet	0.688 52	0.704 85	0.741 74	0.754 65	0.656 54	0.829 48	0.501 42	0.741 69	0.609 48	0.548 64	0.950 55	0.522 45	0.371 5	0.633 53	0.756 59	0.715 43	0.771 47	0.623 48	0.861 84	0.814 61	0.658 52
Feihu Zhang, Jin Fang, Benjamin Wah, Philip Torr: Deep FusionNet for Point Cloud Semantic Segmentation. ECCV 2020
Feature-Geometry Net	0.685 53	0.866 22	0.748 67	0.819 34	0.645 61	0.794 79	0.450 69	0.802 52	0.587 59	0.604 48	0.945 70	0.464 65	0.201 88	0.554 77	0.840 42	0.723 38	0.732 71	0.602 58	0.907 43	0.822 57	0.603 73

VACNN++	0.684 54	0.728 75	0.757 61	0.776 58	0.690 44	0.804 74	0.464 62	0.816 45	0.577 65	0.587 57	0.945 70	0.508 50	0.276 51	0.671 42	0.710 69	0.663 66	0.750 64	0.589 65	0.881 64	0.832 51	0.653 54

KP-FCNN	0.684 54	0.847 28	0.758 60	0.784 55	0.647 59	0.814 66	0.473 56	0.772 58	0.605 50	0.594 55	0.935 90	0.450 74	0.181 96	0.587 64	0.805 52	0.690 56	0.785 39	0.614 51	0.882 63	0.819 59	0.632 62
H. Thomas, C. Qi, J. Deschaud, B. Marcotegui, F. Goulette, L. Guibas.: KPConv: Flexible and Deformable Convolution for Point Clouds. ICCV 2019
DGNet	0.684 54	0.712 84	0.784 44	0.782 57	0.658 53	0.835 42	0.499 46	0.823 44	0.641 34	0.597 53	0.950 55	0.487 56	0.281 47	0.575 69	0.619 85	0.647 74	0.764 52	0.620 50	0.871 79	0.846 46	0.688 44

PointContrast_LA_SEM	0.683 57	0.757 62	0.784 44	0.786 53	0.639 63	0.824 54	0.408 86	0.775 57	0.604 51	0.541 66	0.934 94	0.532 40	0.269 58	0.552 78	0.777 57	0.645 77	0.793 33	0.640 40	0.913 42	0.824 54	0.671 48

Superpoint Network	0.683 57	0.851 27	0.728 78	0.800 49	0.653 56	0.806 72	0.468 59	0.804 50	0.572 66	0.602 50	0.946 67	0.453 73	0.239 71	0.519 86	0.822 46	0.689 58	0.762 55	0.595 62	0.895 54	0.827 53	0.630 63

VI-PointConv	0.676 59	0.770 57	0.754 62	0.783 56	0.621 67	0.814 66	0.552 18	0.758 62	0.571 69	0.557 62	0.954 40	0.529 41	0.268 60	0.530 84	0.682 75	0.675 61	0.719 74	0.603 57	0.888 59	0.833 49	0.665 50
Xingyi Li, Wenxuan Wu, Xiaoli Z. Fern, Li Fuxin: The Devils in the Point Clouds: Studying the Robustness of Point Cloud Convolutions.
ROSMRF3D	0.673 60	0.789 44	0.748 67	0.763 63	0.635 65	0.814 66	0.407 88	0.747 66	0.581 63	0.573 59	0.950 55	0.484 57	0.271 56	0.607 60	0.754 60	0.649 71	0.774 44	0.596 60	0.883 62	0.823 55	0.606 70

SALANet	0.670 61	0.816 38	0.770 53	0.768 60	0.652 57	0.807 71	0.451 66	0.747 66	0.659 28	0.545 65	0.924 100	0.473 62	0.149 108	0.571 71	0.811 51	0.635 81	0.746 65	0.623 48	0.892 56	0.794 75	0.570 83

O3DSeg	0.668 62	0.822 36	0.771 52	0.496 112	0.651 58	0.833 44	0.541 23	0.761 61	0.555 75	0.611 43	0.966 15	0.489 55	0.370 6	0.388 105	0.580 88	0.776 17	0.751 62	0.570 71	0.956 7	0.817 60	0.646 57

PointConv	0.666 63	0.781 48	0.759 58	0.699 76	0.644 62	0.822 56	0.475 55	0.779 56	0.564 72	0.504 83	0.953 44	0.428 83	0.203 87	0.586 66	0.754 60	0.661 67	0.753 61	0.588 66	0.902 48	0.813 63	0.642 58
Wenxuan Wu, Zhongang Qi, Li Fuxin: PointConv: Deep Convolutional Networks on 3D Point Clouds. CVPR 2019
PointASNL	0.666 63	0.703 86	0.781 46	0.751 67	0.655 55	0.830 47	0.471 57	0.769 59	0.474 96	0.537 68	0.951 51	0.475 61	0.279 49	0.635 51	0.698 74	0.675 61	0.751 62	0.553 82	0.816 95	0.806 65	0.703 40
Xu Yan, Chaoda Zheng, Zhen Li, Sheng Wang, Shuguang Cui: PointASNL: Robust Point Clouds Processing using Nonlocal Neural Networks with Adaptive Sampling. CVPR 2020
PPCNN++	0.663 65	0.746 65	0.708 81	0.722 69	0.638 64	0.820 59	0.451 66	0.566 102	0.599 54	0.541 66	0.950 55	0.510 49	0.313 29	0.648 47	0.819 49	0.616 86	0.682 89	0.590 64	0.869 80	0.810 64	0.656 53
Pyunghwan Ahn, Juyoung Yang, Eojindl Yi, Chanho Lee, Junmo Kim: Projection-based Point Convolution for Efficient Point Cloud Segmentation. IEEE Access
MVF-GNN	0.658 66	0.558 108	0.751 65	0.655 91	0.690 44	0.722 101	0.453 65	0.867 23	0.579 64	0.576 58	0.893 112	0.523 43	0.293 39	0.733 35	0.571 90	0.692 53	0.659 96	0.606 55	0.875 70	0.804 67	0.668 49

DCM-Net	0.658 66	0.778 49	0.702 84	0.806 45	0.619 68	0.813 69	0.468 59	0.693 82	0.494 89	0.524 74	0.941 82	0.449 75	0.298 36	0.510 88	0.821 47	0.675 61	0.727 73	0.568 74	0.826 93	0.803 68	0.637 60
Jonas Schult, Francis Engelmann, Theodora Kontogianni, Bastian Leibe: DualConvMesh-Net: Joint Geodesic and Euclidean Convolutions on 3D Meshes. CVPR 2020 [Oral]
HPGCNN	0.656 68	0.698 88	0.743 72	0.650 93	0.564 85	0.820 59	0.505 40	0.758 62	0.631 38	0.479 87	0.945 70	0.480 59	0.226 73	0.572 70	0.774 58	0.690 56	0.735 69	0.614 51	0.853 87	0.776 90	0.597 76
Jisheng Dang, Qingyong Hu, Yulan Guo, Jun Yang: HPGCNN.
SAFNet-seg	0.654 69	0.752 63	0.734 76	0.664 89	0.583 80	0.815 65	0.399 90	0.754 64	0.639 35	0.535 70	0.942 80	0.470 63	0.309 31	0.665 43	0.539 92	0.650 70	0.708 79	0.635 42	0.857 86	0.793 77	0.642 58
Linqing Zhao, Jiwen Lu, Jie Zhou: Similarity-Aware Fusion Network for 3D Semantic Segmentation. IROS 2021
RandLA-Net	0.645 70	0.778 49	0.731 77	0.699 76	0.577 81	0.829 48	0.446 71	0.736 70	0.477 95	0.523 76	0.945 70	0.454 70	0.269 58	0.484 95	0.749 63	0.618 84	0.738 67	0.599 59	0.827 92	0.792 80	0.621 65

PointConv-SFPN	0.641 71	0.776 51	0.703 83	0.721 70	0.557 88	0.826 51	0.451 66	0.672 87	0.563 73	0.483 86	0.943 79	0.425 86	0.162 103	0.644 48	0.726 65	0.659 68	0.709 78	0.572 70	0.875 70	0.786 85	0.559 89

MVPNet	0.641 71	0.831 32	0.715 79	0.671 86	0.590 76	0.781 85	0.394 92	0.679 84	0.642 33	0.553 63	0.937 87	0.462 66	0.256 64	0.649 46	0.406 105	0.626 82	0.691 86	0.666 33	0.877 68	0.792 80	0.608 69
Maximilian Jaritz, Jiayuan Gu, Hao Su: Multi-view PointNet for 3D Scene Understanding. GMDL Workshop, ICCV 2019
PointMRNet	0.640 73	0.717 82	0.701 85	0.692 79	0.576 82	0.801 75	0.467 61	0.716 75	0.563 73	0.459 93	0.953 44	0.429 82	0.169 100	0.581 67	0.854 36	0.605 87	0.710 76	0.550 84	0.894 55	0.793 77	0.575 81

FPConv	0.639 74	0.785 46	0.760 57	0.713 74	0.603 71	0.798 77	0.392 94	0.534 107	0.603 52	0.524 74	0.948 62	0.457 68	0.250 66	0.538 82	0.723 67	0.598 91	0.696 84	0.614 51	0.872 76	0.799 70	0.567 86
Yiqun Lin, Zizheng Yan, Haibin Huang, Dong Du, Ligang Liu, Shuguang Cui, Xiaoguang Han: FPConv: Learning Local Flattening for Point Convolution. CVPR 2020
PD-Net	0.638 75	0.797 42	0.769 54	0.641 98	0.590 76	0.820 59	0.461 63	0.537 106	0.637 36	0.536 69	0.947 64	0.388 96	0.206 84	0.656 44	0.668 79	0.647 74	0.732 71	0.585 68	0.868 81	0.793 77	0.473 109

PointSPNet	0.637 76	0.734 71	0.692 92	0.714 73	0.576 82	0.797 78	0.446 71	0.743 68	0.598 55	0.437 98	0.942 80	0.403 92	0.150 107	0.626 55	0.800 55	0.649 71	0.697 83	0.557 80	0.846 89	0.777 89	0.563 87

SConv	0.636 77	0.830 33	0.697 88	0.752 66	0.572 84	0.780 87	0.445 73	0.716 75	0.529 79	0.530 71	0.951 51	0.446 77	0.170 99	0.507 90	0.666 80	0.636 80	0.682 89	0.541 90	0.886 60	0.799 70	0.594 77

Supervoxel-CNN	0.635 78	0.656 94	0.711 80	0.719 71	0.613 69	0.757 96	0.444 76	0.765 60	0.534 78	0.566 60	0.928 98	0.478 60	0.272 54	0.636 50	0.531 94	0.664 65	0.645 100	0.508 98	0.864 83	0.792 80	0.611 66

joint point-based	0.634 79	0.614 102	0.778 47	0.667 88	0.633 66	0.825 52	0.420 84	0.804 50	0.467 98	0.561 61	0.951 51	0.494 52	0.291 41	0.566 72	0.458 100	0.579 97	0.764 52	0.559 79	0.838 90	0.814 61	0.598 75
Hung-Yueh Chiang, Yen-Liang Lin, Yueh-Cheng Liu, Winston H. Hsu: A Unified Point-Based Framework for 3D Segmentation. 3DV 2019
PointMTL	0.632 80	0.731 73	0.688 95	0.675 83	0.591 75	0.784 84	0.444 76	0.565 103	0.610 46	0.492 84	0.949 59	0.456 69	0.254 65	0.587 64	0.706 70	0.599 90	0.665 95	0.612 54	0.868 81	0.791 83	0.579 80

PointNet2-SFPN	0.631 81	0.771 55	0.692 92	0.672 84	0.524 94	0.837 39	0.440 78	0.706 80	0.538 77	0.446 95	0.944 76	0.421 88	0.219 78	0.552 78	0.751 62	0.591 93	0.737 68	0.543 89	0.901 50	0.768 92	0.557 90

APCF-Net	0.631 81	0.742 68	0.687 97	0.672 84	0.557 88	0.792 82	0.408 86	0.665 89	0.545 76	0.508 80	0.952 49	0.428 83	0.186 94	0.634 52	0.702 72	0.620 83	0.706 80	0.555 81	0.873 74	0.798 72	0.581 79
Haojia, Lin: Adaptive Pyramid Context Fusion for Point Cloud Perception. GRSL
3DSM_DMMF	0.631 81	0.626 99	0.745 70	0.801 48	0.607 70	0.751 97	0.506 39	0.729 73	0.565 71	0.491 85	0.866 115	0.434 78	0.197 91	0.595 62	0.630 84	0.709 46	0.705 81	0.560 77	0.875 70	0.740 100	0.491 104

FusionAwareConv	0.630 84	0.604 104	0.741 74	0.766 62	0.590 76	0.747 98	0.501 42	0.734 71	0.503 88	0.527 72	0.919 104	0.454 70	0.323 26	0.550 80	0.420 104	0.678 60	0.688 87	0.544 87	0.896 53	0.795 74	0.627 64
Jiazhao Zhang, Chenyang Zhu, Lintao Zheng, Kai Xu: Fusion-Aware Point Convolution for Online Semantic 3D Scene Segmentation. CVPR 2020
DenSeR	0.628 85	0.800 41	0.625 107	0.719 71	0.545 91	0.806 72	0.445 73	0.597 97	0.448 103	0.519 78	0.938 86	0.481 58	0.328 24	0.489 94	0.499 99	0.657 69	0.759 57	0.592 63	0.881 64	0.797 73	0.634 61

SegGroup_sem	0.627 86	0.818 37	0.747 69	0.701 75	0.602 72	0.764 93	0.385 98	0.629 94	0.490 91	0.508 80	0.931 97	0.409 91	0.201 88	0.564 73	0.725 66	0.618 84	0.692 85	0.539 91	0.873 74	0.794 75	0.548 93
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
SIConv	0.625 87	0.830 33	0.694 90	0.757 64	0.563 86	0.772 91	0.448 70	0.647 92	0.520 82	0.509 79	0.949 59	0.431 81	0.191 92	0.496 92	0.614 86	0.647 74	0.672 93	0.535 94	0.876 69	0.783 86	0.571 82

dtc_net	0.625 87	0.703 86	0.751 65	0.794 51	0.535 92	0.848 27	0.480 54	0.676 86	0.528 80	0.469 90	0.944 76	0.454 70	0.004 120	0.464 97	0.636 83	0.704 49	0.758 58	0.548 86	0.924 30	0.787 84	0.492 103

Weakly-Openseg v3	0.625 87	0.924 8	0.787 42	0.620 100	0.555 90	0.811 70	0.393 93	0.666 88	0.382 111	0.520 77	0.953 44	0.250 115	0.208 82	0.604 61	0.670 77	0.644 78	0.742 66	0.538 92	0.919 36	0.803 68	0.513 101

HPEIN	0.618 90	0.729 74	0.668 98	0.647 95	0.597 74	0.766 92	0.414 85	0.680 83	0.520 82	0.525 73	0.946 67	0.432 79	0.215 80	0.493 93	0.599 87	0.638 79	0.617 105	0.570 71	0.897 52	0.806 65	0.605 72
Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi-Wing Fu, Jiaya Jia: Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation. ICCV 2019
SPH3D-GCN	0.610 91	0.858 26	0.772 50	0.489 113	0.532 93	0.792 82	0.404 89	0.643 93	0.570 70	0.507 82	0.935 90	0.414 90	0.046 117	0.510 88	0.702 72	0.602 89	0.705 81	0.549 85	0.859 85	0.773 91	0.534 96
Huan Lei, Naveed Akhtar, and Ajmal Mian: Spherical Kernel for Efficient Graph Convolution on 3D Point Clouds. TPAMI 2020
AttAN	0.609 92	0.760 60	0.667 99	0.649 94	0.521 95	0.793 80	0.457 64	0.648 91	0.528 80	0.434 100	0.947 64	0.401 93	0.153 106	0.454 98	0.721 68	0.648 73	0.717 75	0.536 93	0.904 45	0.765 93	0.485 105
Gege Zhang, Qinghua Ma, Licheng Jiao, Fang Liu and Qigong Sun: AttAN: Attention Adversarial Networks for 3D Point Cloud Semantic Segmentation. IJCAI2020
wsss-transformer	0.600 93	0.634 98	0.743 72	0.697 78	0.601 73	0.781 85	0.437 80	0.585 100	0.493 90	0.446 95	0.933 95	0.394 94	0.011 119	0.654 45	0.661 82	0.603 88	0.733 70	0.526 95	0.832 91	0.761 95	0.480 106

LAP-D	0.594 94	0.720 80	0.692 92	0.637 99	0.456 104	0.773 90	0.391 96	0.730 72	0.587 59	0.445 97	0.940 84	0.381 97	0.288 42	0.434 101	0.453 102	0.591 93	0.649 98	0.581 69	0.777 99	0.749 99	0.610 68

DPC	0.592 95	0.720 80	0.700 86	0.602 104	0.480 100	0.762 95	0.380 99	0.713 78	0.585 62	0.437 98	0.940 84	0.369 99	0.288 42	0.434 101	0.509 98	0.590 95	0.639 103	0.567 75	0.772 100	0.755 97	0.592 78
Francis Engelmann, Theodora Kontogianni, Bastian Leibe: Dilated Point Convolutions: On the Receptive Field Size of Point Convolutions on 3D Point Clouds. ICRA 2020
CCRFNet	0.589 96	0.766 59	0.659 102	0.683 81	0.470 103	0.740 100	0.387 97	0.620 96	0.490 91	0.476 88	0.922 102	0.355 102	0.245 69	0.511 87	0.511 97	0.571 98	0.643 101	0.493 102	0.872 76	0.762 94	0.600 74

ROSMRF	0.580 97	0.772 54	0.707 82	0.681 82	0.563 86	0.764 93	0.362 101	0.515 108	0.465 99	0.465 92	0.936 89	0.427 85	0.207 83	0.438 99	0.577 89	0.536 101	0.675 92	0.486 103	0.723 106	0.779 87	0.524 98

SD-DETR	0.576 98	0.746 65	0.609 111	0.445 117	0.517 96	0.643 112	0.366 100	0.714 77	0.456 101	0.468 91	0.870 114	0.432 79	0.264 61	0.558 76	0.674 76	0.586 96	0.688 87	0.482 104	0.739 104	0.733 102	0.537 95

SQN_0.1%	0.569 99	0.676 90	0.696 89	0.657 90	0.497 97	0.779 88	0.424 82	0.548 104	0.515 84	0.376 105	0.902 111	0.422 87	0.357 10	0.379 106	0.456 101	0.596 92	0.659 96	0.544 87	0.685 109	0.665 113	0.556 91

TextureNet	0.566 100	0.672 92	0.664 100	0.671 86	0.494 98	0.719 102	0.445 73	0.678 85	0.411 109	0.396 103	0.935 90	0.356 101	0.225 75	0.412 103	0.535 93	0.565 99	0.636 104	0.464 106	0.794 98	0.680 110	0.568 85
Jingwei Huang, Haotian Zhang, Li Yi, Thomas Funkerhouser, Matthias Niessner, Leonidas Guibas: TextureNet: Consistent Local Parametrizations for Learning from High-Resolution Signals on Meshes. CVPR
DVVNet	0.562 101	0.648 95	0.700 86	0.770 59	0.586 79	0.687 106	0.333 105	0.650 90	0.514 85	0.475 89	0.906 108	0.359 100	0.223 77	0.340 108	0.442 103	0.422 112	0.668 94	0.501 99	0.708 107	0.779 87	0.534 96

Pointnet++ & Feature	0.557 102	0.735 70	0.661 101	0.686 80	0.491 99	0.744 99	0.392 94	0.539 105	0.451 102	0.375 106	0.946 67	0.376 98	0.205 85	0.403 104	0.356 108	0.553 100	0.643 101	0.497 100	0.824 94	0.756 96	0.515 99

GMLPs	0.538 103	0.495 113	0.693 91	0.647 95	0.471 102	0.793 80	0.300 108	0.477 109	0.505 87	0.358 107	0.903 110	0.327 105	0.081 114	0.472 96	0.529 95	0.448 110	0.710 76	0.509 96	0.746 102	0.737 101	0.554 92

PanopticFusion-label	0.529 104	0.491 114	0.688 95	0.604 103	0.386 109	0.632 113	0.225 119	0.705 81	0.434 106	0.293 113	0.815 117	0.348 103	0.241 70	0.499 91	0.669 78	0.507 103	0.649 98	0.442 112	0.796 97	0.602 117	0.561 88
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
subcloud_weak	0.516 105	0.676 90	0.591 114	0.609 101	0.442 105	0.774 89	0.335 104	0.597 97	0.422 108	0.357 108	0.932 96	0.341 104	0.094 113	0.298 110	0.528 96	0.473 108	0.676 91	0.495 101	0.602 115	0.721 105	0.349 117

Online SegFusion	0.515 106	0.607 103	0.644 105	0.579 106	0.434 106	0.630 114	0.353 102	0.628 95	0.440 104	0.410 101	0.762 120	0.307 107	0.167 101	0.520 85	0.403 106	0.516 102	0.565 108	0.447 110	0.678 110	0.701 107	0.514 100
Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstroem, Cristian Sminchisescu, Luc van Gool: A Real-Time Learning Framework for Joint 3D Reconstruction and Semantic Segmentation. Robotics and Automation Letters Submission
3DMV, FTSDF	0.501 107	0.558 108	0.608 112	0.424 119	0.478 101	0.690 105	0.246 115	0.586 99	0.468 97	0.450 94	0.911 106	0.394 94	0.160 104	0.438 99	0.212 115	0.432 111	0.541 113	0.475 105	0.742 103	0.727 103	0.477 107

PCNN	0.498 108	0.559 107	0.644 105	0.560 108	0.420 108	0.711 104	0.229 117	0.414 110	0.436 105	0.352 109	0.941 82	0.324 106	0.155 105	0.238 115	0.387 107	0.493 104	0.529 114	0.509 96	0.813 96	0.751 98	0.504 102

3DMV	0.484 109	0.484 115	0.538 117	0.643 97	0.424 107	0.606 117	0.310 106	0.574 101	0.433 107	0.378 104	0.796 118	0.301 108	0.214 81	0.537 83	0.208 116	0.472 109	0.507 117	0.413 115	0.693 108	0.602 117	0.539 94
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
PointCNN with RGB	0.458 110	0.577 106	0.611 110	0.356 121	0.321 117	0.715 103	0.299 110	0.376 114	0.328 117	0.319 111	0.944 76	0.285 110	0.164 102	0.216 118	0.229 113	0.484 106	0.545 112	0.456 108	0.755 101	0.709 106	0.475 108
Yangyan Li, Rui Bu, Mingchao Sun, Baoquan Chen: PointCNN. NeurIPS 2018
FCPN	0.447 111	0.679 89	0.604 113	0.578 107	0.380 110	0.682 107	0.291 111	0.106 121	0.483 94	0.258 119	0.920 103	0.258 114	0.025 118	0.231 117	0.325 109	0.480 107	0.560 110	0.463 107	0.725 105	0.666 112	0.231 121
Dario Rethage, Johanna Wald, Jürgen Sturm, Nassir Navab, Federico Tombari: Fully-Convolutional Point Networks for Large-Scale Point Clouds. ECCV 2018
DGCNN_reproduce	0.446 112	0.474 116	0.623 108	0.463 115	0.366 112	0.651 110	0.310 106	0.389 113	0.349 115	0.330 110	0.937 87	0.271 112	0.126 110	0.285 111	0.224 114	0.350 117	0.577 107	0.445 111	0.625 113	0.723 104	0.394 113
Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E. Sarma, Michael M. Bronstein, Justin M. Solomon: Dynamic Graph CNN for Learning on Point Clouds. TOG 2019
PNET2	0.442 113	0.548 110	0.548 116	0.597 105	0.363 113	0.628 115	0.300 108	0.292 116	0.374 112	0.307 112	0.881 113	0.268 113	0.186 94	0.238 115	0.204 117	0.407 113	0.506 118	0.449 109	0.667 111	0.620 116	0.462 111

SurfaceConvPF	0.442 113	0.505 112	0.622 109	0.380 120	0.342 115	0.654 109	0.227 118	0.397 112	0.367 113	0.276 115	0.924 100	0.240 116	0.198 90	0.359 107	0.262 111	0.366 114	0.581 106	0.435 113	0.640 112	0.668 111	0.398 112
Hao Pan, Shilin Liu, Yang Liu, Xin Tong: Convolutional Neural Networks on 3D Surfaces Using Parallel Frames.
Tangent Convolutions	0.438 115	0.437 118	0.646 104	0.474 114	0.369 111	0.645 111	0.353 102	0.258 118	0.282 120	0.279 114	0.918 105	0.298 109	0.147 109	0.283 112	0.294 110	0.487 105	0.562 109	0.427 114	0.619 114	0.633 115	0.352 116
Maxim Tatarchenko, Jaesik Park, Vladlen Koltun, Qian-Yi Zhou: Tangent convolutions for dense prediction in 3d. CVPR 2018
3DWSSS	0.425 116	0.525 111	0.647 103	0.522 109	0.324 116	0.488 121	0.077 122	0.712 79	0.353 114	0.401 102	0.636 122	0.281 111	0.176 97	0.340 108	0.565 91	0.175 121	0.551 111	0.398 116	0.370 122	0.602 117	0.361 115

SPLAT Net	0.393 117	0.472 117	0.511 118	0.606 102	0.311 118	0.656 108	0.245 116	0.405 111	0.328 117	0.197 120	0.927 99	0.227 118	0.000 122	0.001 123	0.249 112	0.271 120	0.510 115	0.383 118	0.593 116	0.699 108	0.267 119
Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz: SPLATNet: Sparse Lattice Networks for Point Cloud Processing. CVPR 2018
ScanNet+FTSDF	0.383 118	0.297 120	0.491 119	0.432 118	0.358 114	0.612 116	0.274 113	0.116 120	0.411 109	0.265 116	0.904 109	0.229 117	0.079 115	0.250 113	0.185 118	0.320 118	0.510 115	0.385 117	0.548 117	0.597 120	0.394 113

PointNet++	0.339 119	0.584 105	0.478 120	0.458 116	0.256 120	0.360 122	0.250 114	0.247 119	0.278 121	0.261 118	0.677 121	0.183 119	0.117 111	0.212 119	0.145 120	0.364 115	0.346 122	0.232 122	0.548 117	0.523 121	0.252 120
Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas: pointnet++: deep hierarchical feature learning on point sets in a metric space.
GrowSP++	0.323 120	0.114 122	0.589 115	0.499 111	0.147 122	0.555 118	0.290 112	0.336 115	0.290 119	0.262 117	0.865 116	0.102 122	0.000 122	0.037 121	0.000 123	0.000 123	0.462 119	0.381 119	0.389 121	0.664 114	0.473 109

SSC-UNet	0.308 121	0.353 119	0.290 122	0.278 122	0.166 121	0.553 119	0.169 121	0.286 117	0.147 122	0.148 122	0.908 107	0.182 120	0.064 116	0.023 122	0.018 122	0.354 116	0.363 120	0.345 120	0.546 119	0.685 109	0.278 118

ScanNet	0.306 122	0.203 121	0.366 121	0.501 110	0.311 118	0.524 120	0.211 120	0.002 123	0.342 116	0.189 121	0.786 119	0.145 121	0.102 112	0.245 114	0.152 119	0.318 119	0.348 121	0.300 121	0.460 120	0.437 122	0.182 122
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17
ERROR	0.054 123	0.000 123	0.041 123	0.172 123	0.030 123	0.062 123	0.001 123	0.035 122	0.004 123	0.051 123	0.143 123	0.019 123	0.003 121	0.041 120	0.050 121	0.003 122	0.054 123	0.018 123	0.005 123	0.264 123	0.082 123

This table lists the benchmark results for the 3D semantic instance scenario.

Method	avg ap 25%	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

PointRel	0.901 1	1.000 1	0.978 25	0.928 3	0.879 1	0.962 6	0.882 5	0.749 40	0.947 3	0.912 2	0.802 3	0.753 21	0.820 2	1.000 1	0.984 4	0.919 6	0.894 4	1.000 1	0.815 17
: Relation3D: Enhancing Relation Modeling for Point Cloud Instance Segmentation. CVPR 2025
PointComp	0.897 2	1.000 1	0.998 6	0.864 20	0.869 3	0.969 3	0.830 8	0.783 33	0.905 15	0.894 10	0.791 4	0.834 1	0.769 14	1.000 1	0.982 5	0.920 5	0.868 20	1.000 1	0.872 2

OneFormer3D	0.896 3	1.000 1	1.000 1	0.913 6	0.858 7	0.951 12	0.786 17	0.837 20	0.916 13	0.908 4	0.778 9	0.803 7	0.750 16	1.000 1	0.976 7	0.926 4	0.882 8	0.995 50	0.849 3
Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: OneFormer3D: One Transformer for Unified Point Cloud Segmentation.
Competitor-MAFT	0.896 3	1.000 1	1.000 1	0.872 17	0.847 12	0.967 4	0.955 1	0.778 35	0.901 17	0.919 1	0.784 6	0.812 2	0.770 13	1.000 1	0.949 10	0.865 37	0.868 19	1.000 1	0.840 6

MG-Former	0.887 5	1.000 1	0.991 15	0.837 28	0.801 27	0.935 21	0.887 4	0.857 12	0.946 4	0.891 12	0.748 20	0.805 6	0.739 18	1.000 1	0.993 2	0.809 61	0.876 15	1.000 1	0.842 5

DCD	0.885 6	1.000 1	0.933 43	0.856 24	0.832 16	0.959 8	0.930 2	0.858 11	0.802 40	0.859 20	0.767 10	0.796 11	0.709 22	1.000 1	0.971 8	0.871 31	0.904 2	1.000 1	0.874 1

UniPerception	0.884 7	1.000 1	0.979 22	0.872 17	0.869 4	0.892 30	0.806 14	0.890 7	0.835 31	0.892 11	0.755 16	0.811 3	0.779 10	0.955 51	0.951 9	0.876 25	0.914 1	0.997 42	0.840 7

KmaxOneFormerNet	0.883 8	1.000 1	1.000 1	0.798 43	0.848 11	0.971 1	0.853 7	0.903 3	0.827 34	0.910 3	0.748 19	0.809 5	0.724 20	1.000 1	0.980 6	0.855 43	0.844 26	1.000 1	0.832 8

InsSSM	0.883 8	1.000 1	0.996 7	0.800 42	0.865 5	0.960 7	0.808 13	0.852 17	0.940 7	0.899 9	0.785 5	0.810 4	0.700 24	1.000 1	0.912 22	0.851 46	0.895 3	0.997 42	0.827 10
Lei Yao, Yi Wang, Moyun Liu, Lap-Pui Chau: SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation. TCSVT, 2024
Competitor-SPFormer	0.881 10	1.000 1	1.000 1	0.845 26	0.854 8	0.962 5	0.714 25	0.857 13	0.904 16	0.902 7	0.782 8	0.789 14	0.662 30	1.000 1	0.988 3	0.874 28	0.886 7	0.997 42	0.847 4

VDG-Uni3DSeg	0.880 11	1.000 1	0.990 17	0.889 10	0.823 20	0.952 11	0.764 19	0.893 6	0.941 6	0.907 5	0.756 15	0.781 16	0.628 48	1.000 1	0.918 21	0.903 9	0.872 18	0.999 40	0.821 14

TST3D	0.879 12	1.000 1	0.994 10	0.921 5	0.807 26	0.939 18	0.771 18	0.887 8	0.923 11	0.862 19	0.722 25	0.768 18	0.756 15	1.000 1	0.910 33	0.904 8	0.836 29	0.999 40	0.824 12
Duc Tran Dang Trung, Byeongkeun Kang, Yeejin Lee: MSTA3D: Multi-scale Twin-attention for 3D Instance Segmentation. ACM Multimedia 2024
SIM3D	0.878 13	1.000 1	0.972 27	0.863 21	0.817 24	0.952 10	0.821 11	0.783 31	0.890 20	0.902 8	0.735 23	0.797 9	0.799 9	1.000 1	0.931 18	0.893 15	0.853 24	1.000 1	0.792 20

EV3D	0.877 14	1.000 1	0.996 9	0.873 15	0.854 9	0.950 13	0.691 29	0.783 32	0.926 8	0.889 15	0.754 17	0.794 13	0.820 2	1.000 1	0.912 22	0.900 11	0.860 22	1.000 1	0.779 23

TD3D	0.875 15	1.000 1	0.976 26	0.877 13	0.783 33	0.970 2	0.889 3	0.828 21	0.945 5	0.803 26	0.713 27	0.720 28	0.709 21	1.000 1	0.936 16	0.934 3	0.873 16	1.000 1	0.791 21
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
Spherical Mask(CtoF)	0.875 15	1.000 1	0.991 16	0.873 15	0.850 10	0.946 15	0.691 29	0.752 39	0.926 8	0.889 14	0.759 13	0.794 12	0.820 2	1.000 1	0.912 22	0.900 11	0.878 12	1.000 1	0.769 25

SoftGroup++	0.874 17	1.000 1	0.972 28	0.947 1	0.839 15	0.898 29	0.556 44	0.913 2	0.881 23	0.756 28	0.828 2	0.748 23	0.821 1	1.000 1	0.937 15	0.937 1	0.887 6	1.000 1	0.821 13

Queryformer	0.874 17	1.000 1	0.978 24	0.809 40	0.876 2	0.936 20	0.702 26	0.716 45	0.920 12	0.875 18	0.766 11	0.772 17	0.818 6	1.000 1	0.995 1	0.916 7	0.892 5	1.000 1	0.767 26

Mask3D	0.870 19	1.000 1	0.985 19	0.782 50	0.818 23	0.938 19	0.760 20	0.749 40	0.923 10	0.877 17	0.760 12	0.785 15	0.820 2	1.000 1	0.912 22	0.864 39	0.878 12	0.983 56	0.825 11
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
ExtMask3D	0.867 20	1.000 1	1.000 1	0.756 57	0.816 25	0.940 17	0.795 15	0.760 38	0.862 25	0.888 16	0.739 21	0.763 19	0.774 11	1.000 1	0.929 19	0.878 24	0.879 10	1.000 1	0.819 16

SoftGroup	0.865 21	1.000 1	0.969 29	0.860 22	0.860 6	0.913 25	0.558 41	0.899 4	0.911 14	0.760 27	0.828 1	0.736 25	0.802 8	0.981 48	0.919 20	0.875 26	0.877 14	1.000 1	0.820 15
Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo: SoftGroup for 3D Instance Segmentaiton on Point Clouds. CVPR 2022 [Oral]
MAFT	0.860 22	1.000 1	0.990 17	0.810 39	0.829 17	0.949 14	0.809 12	0.688 51	0.836 30	0.904 6	0.751 18	0.796 10	0.741 17	1.000 1	0.864 43	0.848 48	0.837 27	1.000 1	0.828 9

IPCA-Inst	0.851 23	1.000 1	0.968 30	0.884 12	0.842 14	0.862 43	0.693 28	0.812 26	0.888 22	0.677 40	0.783 7	0.698 29	0.807 7	1.000 1	0.911 30	0.865 38	0.865 21	1.000 1	0.757 29

SPFormer	0.851 23	1.000 1	0.994 11	0.806 41	0.774 35	0.942 16	0.637 33	0.849 18	0.859 27	0.889 13	0.720 26	0.730 26	0.665 29	1.000 1	0.911 30	0.868 36	0.873 17	1.000 1	0.796 19
Sun Jiahao, Qing Chunmei, Tan Junpeng, Xu Xiangmin: Superpoint Transformer for 3D Scene Instance Segmentation. AAAI 2023 [Oral]
ODIN - Ins	0.847 25	1.000 1	0.951 36	0.834 33	0.828 18	0.875 35	0.871 6	0.767 36	0.821 36	0.816 23	0.690 34	0.800 8	0.771 12	1.000 1	0.912 22	0.891 16	0.821 30	0.886 72	0.713 36
Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki: ODIN: A Single Model for 2D and 3D Segmentation. CVPR 2024
Mask3D_evaluation	0.843 26	1.000 1	0.955 35	0.847 25	0.795 29	0.932 22	0.750 22	0.780 34	0.891 19	0.818 22	0.737 22	0.633 38	0.703 23	1.000 1	0.902 35	0.870 32	0.820 31	0.941 64	0.805 18

SphereSeg	0.835 27	1.000 1	0.963 33	0.891 9	0.794 30	0.954 9	0.822 10	0.710 46	0.961 2	0.721 32	0.693 33	0.530 51	0.653 32	1.000 1	0.867 42	0.857 42	0.859 23	0.991 53	0.771 24

ISBNet	0.835 27	1.000 1	0.950 37	0.731 59	0.819 21	0.918 23	0.790 16	0.740 42	0.851 29	0.831 21	0.661 36	0.742 24	0.650 33	1.000 1	0.937 14	0.814 60	0.836 28	1.000 1	0.765 27
Tuan Duc Ngo, Binh-Son Hua, Khoi Nguyen: ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution. CVPR 2023
TopoSeg	0.832 29	1.000 1	0.981 21	0.933 2	0.819 22	0.826 52	0.524 50	0.841 19	0.811 37	0.681 39	0.759 14	0.687 30	0.727 19	0.981 48	0.911 30	0.883 20	0.853 25	1.000 1	0.756 30

GraphCut	0.832 29	1.000 1	0.922 52	0.724 61	0.798 28	0.902 28	0.701 27	0.856 15	0.859 26	0.715 33	0.706 28	0.748 22	0.640 44	1.000 1	0.934 17	0.862 40	0.880 9	1.000 1	0.729 32

PBNet	0.825 31	1.000 1	0.963 32	0.837 30	0.843 13	0.865 38	0.822 9	0.647 54	0.878 24	0.733 30	0.639 43	0.683 31	0.650 33	1.000 1	0.853 44	0.870 33	0.820 32	1.000 1	0.744 31
Weiguang Zhao, Yuyao Yan, Chaolong Yang, Jianan Ye, Xi Yang, Kaizhu Huang: Divide and Conquer: 3D Instance Segmentation With Point-Wise Binarization. ICCV 2023
SSEC	0.820 32	1.000 1	0.983 20	0.924 4	0.826 19	0.817 55	0.415 59	0.899 5	0.793 42	0.673 41	0.731 24	0.636 36	0.653 31	1.000 1	0.939 13	0.804 63	0.878 11	1.000 1	0.780 22

DKNet	0.815 33	1.000 1	0.930 44	0.844 27	0.765 39	0.915 24	0.534 48	0.805 28	0.805 39	0.807 25	0.654 37	0.763 20	0.650 33	1.000 1	0.794 56	0.881 21	0.766 36	1.000 1	0.758 28
Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong: 3D Instances as 1D Kernels. ECCV 2022
RPGN	0.806 34	1.000 1	0.992 13	0.789 45	0.723 52	0.891 31	0.650 32	0.810 27	0.832 32	0.665 43	0.699 31	0.658 32	0.700 24	1.000 1	0.881 37	0.832 52	0.774 34	0.997 42	0.613 53
Shichao Dong, Guosheng Lin, Tzu-Yi Hung: Learning Regional Purity for Instance Segmentation on 3D Point Clouds. ECCV 2022
Box2Mask	0.803 35	1.000 1	0.962 34	0.874 14	0.707 56	0.887 34	0.686 31	0.598 59	0.961 1	0.715 34	0.694 32	0.469 56	0.700 24	1.000 1	0.912 22	0.902 10	0.753 41	0.997 42	0.637 47
Julian Chibane, Francis Engelmann, Tuan Anh Tran, Gerard Pons-Moll: Box2Mask: Weakly Supervised 3D Semantic Instance Segmentation Using Bounding Boxes. ECCV 2022
HAIS	0.803 35	1.000 1	0.994 11	0.820 35	0.759 40	0.855 44	0.554 45	0.882 9	0.827 35	0.615 49	0.676 35	0.638 35	0.646 42	1.000 1	0.912 22	0.797 66	0.767 35	0.994 51	0.726 33
Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang: Hierarchical Aggregation for 3D Instance Segmentation. ICCV 2021
Mask-Group	0.792 37	1.000 1	0.968 31	0.812 36	0.766 38	0.864 39	0.460 53	0.815 25	0.888 21	0.598 53	0.651 40	0.639 34	0.600 51	0.918 54	0.941 11	0.896 14	0.721 48	1.000 1	0.723 34
Min Zhong, Xinghao Chen, Xiaokang Chen, Gang Zeng, Yunhe Wang: MaskGroup: Hierarchical Point Grouping and Masking for 3D Instance Segmentation. ICME 2022
CSC-Pretrained	0.791 38	1.000 1	0.996 7	0.829 34	0.767 37	0.889 33	0.600 36	0.819 24	0.770 47	0.594 54	0.620 47	0.541 48	0.700 24	1.000 1	0.941 11	0.889 18	0.763 37	1.000 1	0.526 63

SSTNet	0.789 39	1.000 1	0.840 66	0.888 11	0.717 53	0.835 48	0.717 24	0.684 52	0.627 62	0.724 31	0.652 39	0.727 27	0.600 51	1.000 1	0.912 22	0.822 55	0.757 40	1.000 1	0.691 41
Zhihao Liang, Zhihao Li, Songcen Xu, Mingkui Tan, Kui Jia: Instance Segmentation in 3D Scenes using Semantic Superpoint Tree Networks. ICCV2021
GICN	0.788 40	1.000 1	0.978 23	0.867 19	0.781 34	0.833 49	0.527 49	0.824 22	0.806 38	0.549 62	0.596 50	0.551 44	0.700 24	1.000 1	0.853 44	0.935 2	0.733 45	1.000 1	0.651 44

DENet	0.786 41	1.000 1	0.929 45	0.736 58	0.750 46	0.720 68	0.755 21	0.934 1	0.794 41	0.590 55	0.561 56	0.537 49	0.650 33	1.000 1	0.882 36	0.804 64	0.789 33	1.000 1	0.719 35

DANCENET	0.786 41	1.000 1	0.936 40	0.783 48	0.737 49	0.852 46	0.742 23	0.647 54	0.765 49	0.811 24	0.624 46	0.579 41	0.632 47	1.000 1	0.909 34	0.898 13	0.696 53	0.944 60	0.601 56

DualGroup	0.782 43	1.000 1	0.927 46	0.811 37	0.772 36	0.853 45	0.631 35	0.805 28	0.773 44	0.613 50	0.611 48	0.610 39	0.650 33	0.835 65	0.881 37	0.879 23	0.750 43	1.000 1	0.675 42

PointGroup	0.778 44	1.000 1	0.900 56	0.798 44	0.715 54	0.863 40	0.493 51	0.706 47	0.895 18	0.569 60	0.701 29	0.576 42	0.639 45	1.000 1	0.880 39	0.851 45	0.719 49	0.997 42	0.709 38
Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia: PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation. CVPR 2020 [oral]
PE	0.776 45	1.000 1	0.900 57	0.860 22	0.728 51	0.869 36	0.400 60	0.857 14	0.774 43	0.568 61	0.701 30	0.602 40	0.646 42	0.933 53	0.843 47	0.890 17	0.691 57	0.997 42	0.709 37
Biao Zhang, Peter Wonka: Point Cloud Instance Segmentation using Probabilistic Embeddings. CVPR 2021
AOIA	0.767 46	1.000 1	0.937 39	0.810 38	0.740 48	0.906 26	0.550 46	0.800 30	0.706 54	0.577 59	0.624 45	0.544 47	0.596 56	0.857 57	0.879 41	0.880 22	0.750 42	0.992 52	0.658 43

DD-UNet+Group	0.764 47	1.000 1	0.897 59	0.837 29	0.753 43	0.830 51	0.459 55	0.824 22	0.699 56	0.629 47	0.653 38	0.438 59	0.650 33	1.000 1	0.880 39	0.858 41	0.690 58	1.000 1	0.650 45
H. Liu, R. Liu, K. Yang, J. Zhang, K. Peng, R. Stiefelhagen: HIDA: Towards Holistic Indoor Understanding for the Visually Impaired via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor. ICCVW 2021
INS-Conv-instance	0.762 48	1.000 1	0.923 49	0.765 53	0.785 32	0.905 27	0.600 36	0.655 53	0.646 61	0.683 38	0.647 41	0.530 50	0.650 33	1.000 1	0.824 49	0.830 53	0.693 56	0.944 60	0.644 46

Dyco3D	0.761 49	1.000 1	0.935 41	0.893 8	0.752 45	0.863 41	0.600 36	0.588 60	0.742 51	0.641 45	0.633 44	0.546 46	0.550 58	0.857 57	0.789 58	0.853 44	0.762 38	0.987 54	0.699 39
Tong He; Chunhua Shen; Anton van den Hengel: DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution. CVPR2021
OccuSeg+instance	0.742 50	1.000 1	0.923 49	0.785 46	0.745 47	0.867 37	0.557 42	0.578 63	0.729 52	0.670 42	0.644 42	0.488 54	0.577 57	1.000 1	0.794 56	0.830 53	0.620 66	1.000 1	0.550 59
Lei Han, Tian Zheng, Lan Xu, Lu Fang: OccuSeg: Occupancy-aware 3D Instance Segmentation. CVPR2020
RWSeg	0.739 51	1.000 1	0.899 58	0.759 55	0.753 44	0.823 53	0.282 65	0.691 50	0.658 59	0.582 58	0.594 51	0.547 45	0.628 48	1.000 1	0.795 55	0.868 35	0.728 47	1.000 1	0.692 40

3D-MPA	0.737 52	1.000 1	0.933 42	0.785 46	0.794 31	0.831 50	0.279 67	0.588 60	0.695 57	0.616 48	0.559 57	0.556 43	0.650 33	1.000 1	0.809 53	0.875 27	0.696 54	1.000 1	0.608 55
Francis Engelmann, Martin Bokeloh, Alireza Fathi, Bastian Leibe, Matthias Nießner: 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation. CVPR 2020
MTML	0.731 53	1.000 1	0.992 13	0.779 52	0.609 65	0.746 63	0.308 64	0.867 10	0.601 65	0.607 51	0.539 60	0.519 52	0.550 58	1.000 1	0.824 49	0.869 34	0.729 46	1.000 1	0.616 51
Jean Lahoud, Bernard Ghanem, Marc Pollefeys, Martin R. Oswald: 3D Instance Segmentation via Multi-task Metric Learning. ICCV 2019 [oral]
OSIS	0.725 54	1.000 1	0.885 62	0.653 67	0.657 62	0.801 56	0.576 40	0.695 49	0.828 33	0.698 36	0.534 61	0.457 58	0.500 65	0.857 57	0.831 48	0.841 50	0.627 64	1.000 1	0.619 50

SSEN	0.724 55	1.000 1	0.926 47	0.781 51	0.661 60	0.845 47	0.596 39	0.529 66	0.764 50	0.653 44	0.489 67	0.461 57	0.500 65	0.859 56	0.765 59	0.872 30	0.761 39	1.000 1	0.577 57
Dongsu Zhang, Junha Chun, Sang Kyun Cha, Young Min Kim: Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with Deep Metric Learning. Arxiv
NeuralBF	0.718 56	1.000 1	0.945 38	0.901 7	0.754 42	0.817 54	0.460 53	0.700 48	0.772 45	0.688 37	0.568 55	0.000 78	0.500 65	0.981 48	0.606 69	0.872 29	0.740 44	1.000 1	0.614 52
Weiwei Sun, Daniel Rebain, Renjie Liao, Vladimir Tankovich, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi: NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation on Point Clouds. WACV 2023
Sparse R-CNN	0.714 57	1.000 1	0.926 48	0.694 62	0.699 58	0.890 32	0.636 34	0.516 67	0.693 58	0.743 29	0.588 52	0.369 63	0.601 50	0.594 71	0.800 54	0.886 19	0.676 59	0.986 55	0.546 60

SALoss-ResNet	0.695 58	1.000 1	0.855 64	0.579 72	0.589 67	0.735 66	0.484 52	0.588 60	0.856 28	0.634 46	0.571 54	0.298 64	0.500 65	1.000 1	0.824 49	0.818 56	0.702 52	0.935 67	0.545 61
Zhidong Liang, Ming Yang, Hao Li, Chunxiang Wang: 3D Instance Embedding Learning With a Structure-Aware Loss Function for Point Cloud Segmentation. IEEE Robotics and Automation Letters (IROS2020)
PanopticFusion-inst	0.693 59	1.000 1	0.852 65	0.655 66	0.616 64	0.788 58	0.334 62	0.763 37	0.771 46	0.457 72	0.555 58	0.652 33	0.518 62	0.857 57	0.765 59	0.732 72	0.631 62	0.944 60	0.577 58
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
Occipital-SCS	0.688 60	1.000 1	0.913 53	0.730 60	0.737 50	0.743 65	0.442 56	0.855 16	0.655 60	0.546 63	0.546 59	0.263 66	0.508 64	0.889 55	0.568 70	0.771 69	0.705 51	0.889 70	0.625 49

3D-BoNet	0.687 61	1.000 1	0.887 61	0.836 31	0.587 68	0.643 75	0.550 46	0.620 56	0.724 53	0.522 67	0.501 65	0.243 67	0.512 63	1.000 1	0.751 61	0.807 62	0.661 61	0.909 69	0.612 54
Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen Wang, Andrew Markham, Niki Trigoni: Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds. NeurIPS 2019 Spotlight
ClickSeg_Instance	0.685 62	1.000 1	0.818 68	0.600 70	0.715 55	0.795 57	0.557 42	0.533 65	0.591 67	0.601 52	0.519 63	0.429 61	0.638 46	0.938 52	0.706 64	0.817 58	0.624 65	0.944 60	0.502 65

PCJC	0.684 63	1.000 1	0.895 60	0.757 56	0.659 61	0.862 42	0.189 74	0.739 43	0.606 64	0.712 35	0.581 53	0.515 53	0.650 33	0.857 57	0.357 75	0.785 67	0.631 63	0.889 70	0.635 48

SPG_WSIS	0.678 64	1.000 1	0.880 63	0.836 31	0.701 57	0.727 67	0.273 69	0.607 58	0.706 55	0.541 65	0.515 64	0.174 70	0.600 51	0.857 57	0.716 63	0.846 49	0.711 50	1.000 1	0.506 64

One_Thing_One_Click	0.675 65	1.000 1	0.823 67	0.782 49	0.621 63	0.766 60	0.211 71	0.736 44	0.560 69	0.586 56	0.522 62	0.636 37	0.453 69	0.641 69	0.853 44	0.850 47	0.694 55	0.997 42	0.411 70
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
SegGroup_ins	0.637 66	1.000 1	0.923 51	0.593 71	0.561 69	0.746 64	0.143 76	0.504 68	0.766 48	0.485 70	0.442 68	0.372 62	0.530 61	0.714 66	0.815 52	0.775 68	0.673 60	1.000 1	0.431 69
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
MASC	0.615 67	0.711 74	0.802 69	0.540 73	0.757 41	0.777 59	0.029 77	0.577 64	0.588 68	0.521 68	0.600 49	0.436 60	0.534 60	0.697 67	0.616 68	0.838 51	0.526 68	0.980 57	0.534 62
Chen Liu, Yasutaka Furukawa: MASC: Multi-scale Affinity with Sparse Convolution for 3D Instance Segmentation.
UNet-backbone	0.605 68	1.000 1	0.909 54	0.764 54	0.603 66	0.704 69	0.415 58	0.301 73	0.548 70	0.461 71	0.394 69	0.267 65	0.386 71	0.857 57	0.649 67	0.817 57	0.504 70	0.959 58	0.356 73

3D-SIS	0.558 69	1.000 1	0.773 70	0.614 69	0.503 72	0.691 71	0.200 72	0.412 69	0.498 73	0.546 64	0.311 74	0.103 74	0.600 51	0.857 57	0.382 72	0.799 65	0.445 76	0.938 66	0.371 71
Ji Hou, Angela Dai, Matthias Niessner: 3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. CVPR 2019
R-PointNet	0.544 70	0.500 77	0.655 76	0.661 65	0.663 59	0.765 61	0.432 57	0.214 76	0.612 63	0.584 57	0.499 66	0.204 69	0.286 75	0.429 74	0.655 66	0.650 77	0.539 67	0.950 59	0.499 66

Hier3D	0.540 71	1.000 1	0.727 71	0.626 68	0.467 75	0.693 70	0.200 72	0.412 69	0.480 74	0.528 66	0.318 73	0.077 77	0.600 51	0.688 68	0.382 72	0.768 70	0.472 72	0.941 64	0.350 74
Tan: HCFS3D: Hierarchical Coupled Feature Selection Network for 3D Semantic and Instance Segmentation.
Region-18class	0.497 72	0.250 79	0.902 55	0.689 63	0.540 70	0.747 62	0.276 68	0.610 57	0.268 78	0.489 69	0.348 70	0.000 78	0.243 78	0.220 77	0.663 65	0.814 59	0.459 74	0.928 68	0.496 67

Sem_Recon_ins	0.484 73	0.764 73	0.608 78	0.470 75	0.521 71	0.637 76	0.311 63	0.218 75	0.348 77	0.365 76	0.223 75	0.222 68	0.258 76	0.629 70	0.734 62	0.596 78	0.509 69	0.858 74	0.444 68

tmp	0.474 74	1.000 1	0.727 71	0.433 77	0.481 74	0.673 73	0.022 79	0.380 71	0.517 72	0.436 74	0.338 72	0.128 72	0.343 73	0.429 74	0.291 77	0.728 73	0.473 71	0.833 75	0.300 76

SemRegionNet-20cls	0.470 75	1.000 1	0.727 71	0.447 76	0.481 73	0.678 72	0.024 78	0.380 71	0.518 71	0.440 73	0.339 71	0.128 72	0.350 72	0.429 74	0.212 78	0.711 74	0.465 73	0.833 75	0.290 77

ASIS	0.422 76	0.333 78	0.707 74	0.676 64	0.401 76	0.650 74	0.350 61	0.177 77	0.594 66	0.376 75	0.202 76	0.077 76	0.404 70	0.571 72	0.197 79	0.674 76	0.447 75	0.500 78	0.260 78

3D-BEVIS	0.401 77	0.667 75	0.687 75	0.419 78	0.137 79	0.587 77	0.188 75	0.235 74	0.359 76	0.211 78	0.093 79	0.080 75	0.311 74	0.571 72	0.382 72	0.754 71	0.300 78	0.874 73	0.357 72
Cathrin Elich, Francis Engelmann, Jonas Schult, Theodora Kontogianni, Bastian Leibe: 3D-BEVIS: Birds-Eye-View Instance Segmentation.
Sgpn_scannet	0.390 78	0.556 76	0.636 77	0.493 74	0.353 77	0.539 78	0.271 70	0.160 78	0.450 75	0.359 77	0.178 77	0.146 71	0.250 77	0.143 78	0.347 76	0.698 75	0.436 77	0.667 77	0.331 75

MaskRCNN 2d->3d Proj	0.261 79	0.903 72	0.081 79	0.008 79	0.233 78	0.175 79	0.280 66	0.106 79	0.150 79	0.203 79	0.175 78	0.480 55	0.218 79	0.143 78	0.542 71	0.404 79	0.153 79	0.393 79	0.049 79

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

Virtual MVFusion (R)	0.745 1	0.861 1	0.839 1	0.881 1	0.672 2	0.512 1	0.422 19	0.898 1	0.723 1	0.714 1	0.954 2	0.454 1	0.509 1	0.773 1	0.895 1	0.756 1	0.820 1	0.653 1	0.935 1	0.891 1	0.728 1
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
BPNet_2D	0.670 2	0.822 3	0.795 3	0.836 2	0.659 3	0.481 2	0.451 15	0.769 5	0.656 3	0.567 4	0.931 3	0.395 6	0.390 6	0.700 4	0.534 4	0.689 11	0.770 2	0.574 3	0.865 11	0.831 3	0.675 6
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia and Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MVF-GNN（2D）	0.636 3	0.606 16	0.794 4	0.434 17	0.688 1	0.337 8	0.464 14	0.798 4	0.632 5	0.589 3	0.908 9	0.420 2	0.329 14	0.743 2	0.594 2	0.738 2	0.676 5	0.527 4	0.906 2	0.818 6	0.715 3

CU-Hybrid-2D Net	0.636 3	0.825 2	0.820 2	0.179 25	0.648 4	0.463 3	0.549 2	0.742 9	0.676 2	0.628 2	0.961 1	0.420 2	0.379 7	0.684 8	0.381 20	0.732 3	0.723 3	0.599 2	0.827 18	0.851 2	0.634 9

DVEFormer	0.626 5	0.616 12	0.764 6	0.690 5	0.583 11	0.322 14	0.540 3	0.809 3	0.593 7	0.502 12	0.900 14	0.374 9	0.433 3	0.660 9	0.528 5	0.665 19	0.663 6	0.491 9	0.871 10	0.810 9	0.705 4

CMX	0.613 6	0.681 9	0.725 13	0.502 13	0.634 6	0.297 19	0.478 12	0.830 2	0.651 4	0.537 7	0.924 4	0.375 7	0.315 16	0.686 7	0.451 15	0.714 5	0.543 23	0.504 6	0.894 7	0.823 5	0.688 5

DMMF_3d	0.605 7	0.651 10	0.744 11	0.782 3	0.637 5	0.387 4	0.536 5	0.732 10	0.590 8	0.540 6	0.856 23	0.359 12	0.306 17	0.596 16	0.539 3	0.627 22	0.706 4	0.497 8	0.785 23	0.757 21	0.476 24

EMSANet	0.600 8	0.716 4	0.746 10	0.395 20	0.614 9	0.382 5	0.523 6	0.713 13	0.571 12	0.503 10	0.922 7	0.404 5	0.397 5	0.655 10	0.400 17	0.626 23	0.663 6	0.469 14	0.900 4	0.827 4	0.577 16
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
MCA-Net	0.595 9	0.533 22	0.756 9	0.746 4	0.590 10	0.334 10	0.506 9	0.670 17	0.587 9	0.500 13	0.905 11	0.366 11	0.352 10	0.601 15	0.506 9	0.669 17	0.648 10	0.501 7	0.839 17	0.769 17	0.516 23

RFBNet	0.592 10	0.616 12	0.758 8	0.659 6	0.581 12	0.330 11	0.469 13	0.655 20	0.543 15	0.524 8	0.924 4	0.355 14	0.336 12	0.572 19	0.479 11	0.671 15	0.648 10	0.480 11	0.814 21	0.814 7	0.614 12

FAN_NV_RVC	0.586 11	0.510 23	0.764 6	0.079 28	0.620 8	0.330 11	0.494 10	0.753 7	0.573 10	0.556 5	0.884 18	0.405 4	0.303 18	0.718 3	0.452 14	0.672 14	0.658 8	0.509 5	0.898 5	0.813 8	0.727 2

WSGFormer	0.585 12	0.706 5	0.708 18	0.434 17	0.574 14	0.283 22	0.538 4	0.759 6	0.542 17	0.482 17	0.924 4	0.351 16	0.333 13	0.614 12	0.393 18	0.692 10	0.551 22	0.461 15	0.874 9	0.809 10	0.673 7

DCRedNet	0.583 13	0.682 8	0.723 14	0.542 12	0.510 22	0.310 16	0.451 15	0.668 18	0.549 14	0.520 9	0.920 8	0.375 7	0.446 2	0.528 22	0.417 16	0.670 16	0.577 19	0.478 12	0.862 12	0.806 11	0.628 11

MIX6D_RVC	0.582 14	0.695 6	0.687 19	0.225 23	0.632 7	0.328 13	0.550 1	0.748 8	0.623 6	0.494 16	0.890 16	0.350 17	0.254 25	0.688 6	0.454 13	0.716 4	0.597 18	0.489 10	0.881 8	0.768 18	0.575 17

SSMA	0.577 15	0.695 6	0.716 16	0.439 15	0.563 16	0.314 15	0.444 17	0.719 11	0.551 13	0.503 10	0.887 17	0.346 18	0.348 11	0.603 14	0.353 22	0.709 6	0.600 16	0.457 16	0.901 3	0.786 13	0.599 15
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
DMMF	0.567 16	0.623 11	0.767 5	0.238 22	0.571 15	0.347 6	0.413 21	0.719 11	0.472 22	0.418 24	0.895 15	0.357 13	0.260 24	0.696 5	0.523 8	0.666 18	0.642 12	0.437 20	0.895 6	0.793 12	0.603 14

UNIV_CNP_RVC_UE	0.566 17	0.569 21	0.686 21	0.435 16	0.524 19	0.294 20	0.421 20	0.712 14	0.543 15	0.463 19	0.872 19	0.320 19	0.363 9	0.611 13	0.477 12	0.686 12	0.627 13	0.443 19	0.862 12	0.775 16	0.639 8

EMSAFormer	0.564 18	0.581 18	0.736 12	0.564 11	0.546 18	0.219 25	0.517 7	0.675 16	0.486 21	0.427 23	0.904 12	0.352 15	0.320 15	0.589 17	0.528 5	0.708 7	0.464 26	0.413 24	0.847 16	0.786 13	0.611 13

SN_RN152pyrx8_RVC	0.546 19	0.572 19	0.663 23	0.638 8	0.518 20	0.298 18	0.366 26	0.633 23	0.510 19	0.446 21	0.864 21	0.296 22	0.267 21	0.542 21	0.346 23	0.704 8	0.575 20	0.431 21	0.853 15	0.766 19	0.630 10

UDSSEG_RVC	0.545 20	0.610 15	0.661 24	0.588 9	0.556 17	0.268 23	0.482 11	0.642 22	0.572 11	0.475 18	0.836 25	0.312 20	0.367 8	0.630 11	0.189 25	0.639 21	0.495 25	0.452 17	0.826 19	0.756 22	0.541 19

segfomer with 6d	0.542 21	0.594 17	0.687 19	0.146 26	0.579 13	0.308 17	0.515 8	0.703 15	0.472 22	0.498 14	0.868 20	0.369 10	0.282 19	0.589 17	0.390 19	0.701 9	0.556 21	0.416 23	0.860 14	0.759 20	0.539 21

FuseNet	0.535 22	0.570 20	0.681 22	0.182 24	0.512 21	0.290 21	0.431 18	0.659 19	0.504 20	0.495 15	0.903 13	0.308 21	0.428 4	0.523 23	0.365 21	0.676 13	0.621 15	0.470 13	0.762 24	0.779 15	0.541 19
Caner Hazirbas, Lingni Ma, Csaba Domokos, Daniel Cremers: FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. ACCV 2016
AdapNet++	0.503 23	0.613 14	0.722 15	0.418 19	0.358 28	0.337 8	0.370 25	0.479 26	0.443 24	0.368 26	0.907 10	0.207 25	0.213 27	0.464 26	0.525 7	0.618 24	0.657 9	0.450 18	0.788 22	0.721 25	0.408 27
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
3DMV (2d proj)	0.498 24	0.481 26	0.612 25	0.579 10	0.456 24	0.343 7	0.384 23	0.623 24	0.525 18	0.381 25	0.845 24	0.254 24	0.264 23	0.557 20	0.182 26	0.581 26	0.598 17	0.429 22	0.760 25	0.661 27	0.446 26
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
MSeg1080_RVC	0.485 25	0.505 24	0.709 17	0.092 27	0.427 25	0.241 24	0.411 22	0.654 21	0.385 28	0.457 20	0.861 22	0.053 28	0.279 20	0.503 24	0.481 10	0.645 20	0.626 14	0.365 26	0.748 26	0.725 24	0.529 22
John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun: MSeg: A Composite Dataset for Multi-domain Semantic Segmentation. CVPR 2020
ILC-PSPNet	0.475 26	0.490 25	0.581 26	0.289 21	0.507 23	0.067 28	0.379 24	0.610 25	0.417 26	0.435 22	0.822 27	0.278 23	0.267 21	0.503 24	0.228 24	0.616 25	0.533 24	0.375 25	0.820 20	0.729 23	0.560 18

Enet (reimpl)	0.376 27	0.264 28	0.452 28	0.452 14	0.365 26	0.181 26	0.143 28	0.456 27	0.409 27	0.346 27	0.769 28	0.164 26	0.218 26	0.359 27	0.123 28	0.403 28	0.381 28	0.313 28	0.571 27	0.685 26	0.472 25
Re-implementation of Adam Paszke, Abhishek Chaurasia, Sangpil Kim, Eugenio Culurciello: ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation.
ScanNet (2d proj)	0.330 28	0.293 27	0.521 27	0.657 7	0.361 27	0.161 27	0.250 27	0.004 28	0.440 25	0.183 28	0.836 25	0.125 27	0.060 28	0.319 28	0.132 27	0.417 27	0.412 27	0.344 27	0.541 28	0.427 28	0.109 28
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

EMSANet (Instance)	0.241 1	0.401 1	0.439 1	0.085 1	0.242 1	0.220 1	0.081 1	0.289 2	0.117 2	0.121 1	0.182 1	0.126 1	0.346 1	0.181 2	0.181 2	0.358 1	0.156 1	0.675 2	0.131 1
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
UniDet_RVC	0.205 2	0.381 2	0.323 3	0.037 3	0.226 3	0.177 3	0.063 2	0.277 3	0.120 1	0.067 3	0.131 3	0.074 3	0.317 2	0.080 3	0.235 1	0.289 3	0.141 3	0.678 1	0.080 3

FKNet	0.204 3	0.334 3	0.358 2	0.038 2	0.234 2	0.184 2	0.025 3	0.318 1	0.042 4	0.088 2	0.141 2	0.053 4	0.300 3	0.207 1	0.171 3	0.292 2	0.149 2	0.636 3	0.109 2

MaskRCNN_ScanNet	0.119 4	0.129 4	0.212 4	0.002 4	0.112 4	0.148 4	0.014 4	0.205 4	0.044 3	0.066 4	0.078 4	0.095 2	0.142 4	0.030 4	0.128 4	0.139 4	0.080 4	0.459 4	0.057 4
Re-implementation of Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick: Mask R-CNN. ICCV'17

Presenting the ScanNet200 Benchmark

ScanNet200 Benchmark

ScanNet200 3D Semantic Label Benchmark

ScanNet200 3D Semantic Instance Benchmark

ScanNet Benchmark

3D Semantic Label Benchmark

3D Semantic Instance Benchmark

2D Semantic Label Benchmark

2D Semantic Instance Benchmark

Scene Type Classification Benchmark

Method	avg recall	apartment	bathroom	bedroom / hotel	bookstore / library	conference room	copy/mail room	hallway	kitchen	laundry room	living room / lounge	misc	office	storage / basement / garage

LAST-PCL-type	0.780 1	0.250 3	1.000 1	1.000 1	1.000 1	1.000 1	1.000 1	0.500 2	1.000 1	0.500 2	0.889 1	0.000 2	1.000 1	1.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang: Language-Assisted 3D Scene Understanding. arxiv23.12
multi-task	0.700 2	0.500 1	1.000 1	0.882 3	0.500 3	1.000 1	1.000 1	0.500 2	1.000 1	1.000 1	0.778 2	0.000 2	0.938 2	0.000 3
Shengyu Huang, Mikhail Usvyatsov, Konrad Schindler: Indoor Scene Recognition in 3D. IROS 2020
3DASPP-SCE	0.691 3	0.500 1	0.938 3	0.824 4	1.000 1	1.000 1	0.500 3	1.000 1	0.857 3	0.500 2	0.556 4	0.000 2	0.812 3	0.500 2

SE-ResNeXt-SSMA	0.498 4	0.000 5	0.812 4	0.941 2	0.500 3	0.500 4	0.500 3	0.500 2	0.429 5	0.500 2	0.667 3	0.500 1	0.625 4	0.000 3
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. arXiv
resnet50_scannet	0.353 5	0.250 3	0.812 4	0.529 5	0.500 3	0.500 4	0.000 5	0.500 2	0.571 4	0.000 5	0.556 4	0.000 2	0.375 5	0.000 3