Benchmark Results - ScanNet Benchmark

This table lists the benchmark results for the ScanNet200 3D semantic label scenario.

Method	avg iou	head iou	common iou	tail iou	backpack	bag	ball	bar	basket	bathroom cabinet	bathroom stall	bathroom stall door	bathroom vanity	bathtub	bed	bench	bicycle	bin	blackboard	blanket	blinds	board	book	bookshelf	bottle	bowl	box	broom	bucket	bulletin board	cabinet	calendar	candle	cart	case of water bottles	ceiling	ceiling light	chair	clock	closet	closet rod	clothes	clothes dryer	coat rack	coffee kettle	coffee maker	coffee table	column	computer tower	copier	couch	counter	cup	curtain	cushion	decoration	desk	dining table	dish rack	dishwasher	door	doorframe	dresser	dumbbell	end table	fan	file cabinet	fire alarm	fire extinguisher	floor	folded chair	hat	headphones	ironing board	jacket	keyboard	keyboard piano	kitchen cabinet	kitchen counter	ladder	lamp	laptop	laundry basket	laundry detergent	laundry hamper	ledge	light	light switch	machine	mailbox	mat	microwave	mini fridge	mirror	monitor	mouse	music stand	nightstand	object	office chair	oven	paper	paper bag	paper cutter	paper towel dispenser	paper towel roll	person	piano	picture	pillow	pipe	plant	plate	plunger	poster	power outlet	power strip	printer	projector	projector screen	rack	radiator	range hood	recycling bin	refrigerator	scale	seat	shelf	shoe	shower	shower curtain	shower curtain rod	shower floor	shower head	shower wall	sign	sink	soap dispenser	sofa chair	speaker	stair rail	stairs	stand	stool	storage bin	storage container	storage organizer	stove	structure	stuffed animal	suitcase	table	telephone	tissue box	toaster	toilet	toilet paper	toilet paper dispenser	towel	trash bin	trash can	tray	tube	tv	tv stand	vacuum cleaner	vent	wall	wardrobe	washing machine	water bottle	water cooler	water pitcher	whiteboard	window	windowsill

BFANet ScanNet200	0.360 5	0.553 7	0.293 5	0.193 5	0.483 10	0.096 6	0.266 6	0.000 3	0.000 7	0.000 1	0.298 13	0.255 12	0.661 1	0.810 5	0.810 3	0.194 10	0.785 7	0.000 3	0.000 17	0.161 6	0.000 9	0.494 9	0.382 3	0.574 3	0.258 5	0.000 9	0.372 9	0.000 1	0.000 3	0.043 14	0.436 8	0.000 11	0.000 1	0.239 3	0.000 3	0.901 3	0.105 1	0.689 4	0.025 4	0.128 4	0.614 2	0.436 1	0.493 17	0.000 1	0.000 2	0.526 4	0.546 13	0.109 5	0.651 14	0.953 5	0.753 6	0.101 5	0.143 13	0.897 5	0.000 1	0.431 1	0.469 15	0.000 7	0.522 6	0.337 5	0.661 6	0.459 3	0.409 6	0.666 5	0.102 14	0.508 6	0.757 4	0.000 7	0.060 14	0.970 3	0.497 1	0.000 1	0.376 3	0.511 3	0.262 4	0.688 2	0.921 2	0.617 10	0.321 12	0.590 6	0.491 9	0.556 4	0.000 4	0.000 1	0.481 5	0.093 1	0.043 3	0.284 2	0.000 4	0.875 14	0.135 9	0.669 4	0.124 13	0.394 6	0.849 11	0.298 4	0.000 1	0.476 17	0.088 13	0.042 7	0.000 4	0.000 1	0.254 4	0.653 10	0.741 6	0.215 1	0.573 5	0.852 5	0.266 10	0.654 2	0.056 12	0.835 6	0.000 6	0.492 1	0.000 1	0.000 8	0.000 3	0.612 9	0.000 5	0.000 9	0.000 1	0.616 6	0.469 17	0.460 5	0.698 14	0.516 2	0.000 1	0.378 8	0.563 4	0.476 4	0.863 5	0.574 9	0.330 6	0.000 11	0.282 3	0.000 1	0.760 4	0.710 5	0.233 1	0.000 10	0.641 5	0.814 2	0.000 1	0.585 10	0.053 11	0.000 7	0.000 1	0.629 10	0.000 2	0.000 1	0.678 3	0.528 13	0.534 5	0.129 14	0.596 4	0.973 4	0.264 12	0.772 2	0.526 10	0.139 9	0.707 4	0.000 1	0.000 12	0.764 14	0.591 16	0.848 6	0.000 1	0.827 4	0.338 3	0.806 12	0.000 1	0.568 9	0.151 10	0.358 2	0.659 10	0.510 4
Weiguang Zhao, Rui Zhang, Qiufeng Wang, Guangliang Cheng, Kaizhu Huang: BFANet: Revisiting 3D Semantic Segmentation with Boundary Feature Analysis. CVPR 2025
PPT-SpUNet-F.T.	0.332 12	0.556 6	0.270 7	0.123 14	0.519 4	0.091 7	0.349 4	0.000 3	0.000 7	0.000 1	0.339 9	0.383 10	0.498 10	0.833 4	0.807 4	0.241 4	0.584 9	0.000 3	0.755 7	0.124 8	0.000 9	0.608 3	0.330 8	0.530 9	0.314 2	0.000 9	0.374 8	0.000 1	0.000 3	0.197 5	0.459 7	0.000 11	0.000 1	0.117 6	0.000 3	0.876 7	0.095 2	0.682 9	0.000 7	0.086 8	0.518 7	0.433 2	0.930 4	0.000 1	0.000 2	0.563 3	0.542 14	0.077 7	0.715 4	0.858 11	0.756 5	0.008 16	0.171 12	0.874 8	0.000 1	0.039 7	0.550 11	0.000 7	0.545 5	0.256 8	0.657 8	0.453 4	0.351 10	0.449 11	0.213 6	0.392 12	0.611 11	0.000 7	0.037 15	0.946 6	0.138 13	0.000 1	0.000 12	0.063 11	0.308 2	0.537 8	0.796 5	0.673 4	0.323 11	0.392 10	0.400 14	0.509 7	0.000 4	0.000 1	0.649 1	0.000 11	0.023 12	0.000 12	0.000 4	0.914 6	0.002 16	0.506 16	0.163 11	0.359 8	0.872 5	0.000 12	0.000 1	0.623 7	0.112 6	0.001 12	0.000 4	0.000 1	0.021 9	0.753 5	0.565 15	0.150 4	0.579 4	0.806 9	0.267 9	0.616 4	0.042 14	0.783 13	0.000 6	0.374 11	0.000 1	0.000 8	0.000 3	0.620 8	0.000 5	0.000 9	0.000 1	0.572 13	0.634 5	0.350 9	0.792 5	0.000 10	0.000 1	0.376 9	0.535 6	0.378 6	0.855 7	0.672 3	0.074 13	0.000 11	0.185 10	0.000 1	0.727 12	0.660 12	0.076 17	0.000 10	0.432 12	0.646 10	0.000 1	0.594 8	0.006 13	0.000 7	0.000 1	0.658 7	0.000 2	0.000 1	0.661 4	0.549 10	0.300 14	0.291 8	0.045 14	0.942 11	0.304 8	0.600 8	0.572 7	0.135 12	0.695 5	0.000 1	0.008 9	0.793 9	0.942 2	0.899 2	0.000 1	0.816 6	0.181 7	0.897 2	0.000 1	0.679 4	0.223 8	0.264 5	0.691 5	0.345 12
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer ScanNet200	0.326 13	0.539 10	0.265 10	0.131 12	0.499 6	0.110 4	0.522 3	0.000 3	0.000 7	0.000 1	0.318 11	0.427 7	0.455 15	0.743 11	0.765 13	0.175 11	0.842 4	0.000 3	0.828 5	0.204 4	0.033 6	0.429 11	0.335 6	0.601 2	0.312 3	0.000 9	0.357 10	0.000 1	0.000 3	0.047 11	0.423 9	0.000 11	0.000 1	0.105 9	0.000 3	0.873 9	0.079 9	0.670 12	0.000 7	0.117 5	0.471 13	0.432 3	0.829 11	0.000 1	0.000 2	0.584 2	0.417 17	0.089 6	0.684 9	0.837 12	0.705 16	0.021 12	0.178 11	0.892 6	0.000 1	0.028 8	0.505 13	0.000 7	0.457 9	0.200 14	0.662 4	0.412 9	0.244 15	0.496 8	0.000 17	0.451 8	0.626 9	0.000 7	0.102 11	0.943 9	0.138 13	0.000 1	0.000 12	0.149 8	0.291 3	0.534 9	0.722 7	0.632 7	0.331 10	0.253 14	0.453 11	0.487 11	0.000 4	0.000 1	0.479 6	0.000 11	0.022 13	0.000 12	0.000 4	0.900 10	0.128 11	0.684 3	0.164 10	0.413 4	0.854 10	0.000 12	0.000 1	0.512 16	0.074 15	0.003 11	0.000 4	0.000 1	0.000 11	0.469 15	0.613 12	0.132 8	0.529 7	0.871 3	0.227 16	0.582 7	0.026 17	0.787 12	0.000 6	0.339 15	0.000 1	0.000 8	0.000 3	0.626 7	0.000 5	0.029 8	0.000 1	0.587 9	0.612 8	0.411 7	0.724 10	0.000 10	0.000 1	0.407 6	0.552 5	0.513 3	0.849 10	0.655 4	0.408 4	0.000 11	0.296 2	0.000 1	0.686 15	0.645 14	0.145 8	0.022 8	0.414 14	0.633 11	0.000 1	0.637 2	0.224 3	0.000 7	0.000 1	0.650 8	0.000 2	0.000 1	0.622 9	0.535 12	0.343 12	0.483 3	0.230 13	0.943 10	0.289 10	0.618 7	0.596 5	0.140 8	0.679 8	0.000 1	0.022 6	0.783 11	0.620 12	0.906 1	0.000 1	0.806 8	0.137 10	0.865 5	0.000 1	0.378 12	0.000 15	0.168 15	0.680 8	0.227 13
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
L3DETR-ScanNet_200	0.336 8	0.533 11	0.279 6	0.155 10	0.508 5	0.073 11	0.101 17	0.000 3	0.058 6	0.000 1	0.294 14	0.233 14	0.548 4	0.927 1	0.788 10	0.264 2	0.463 11	0.000 3	0.638 12	0.098 13	0.014 7	0.411 12	0.226 13	0.525 10	0.225 9	0.010 7	0.397 6	0.000 1	0.000 3	0.192 6	0.380 14	0.598 6	0.000 1	0.117 6	0.000 3	0.883 6	0.082 8	0.689 4	0.000 7	0.032 17	0.549 6	0.417 4	0.910 5	0.000 1	0.000 2	0.448 8	0.613 9	0.000 10	0.697 7	0.960 3	0.759 4	0.158 2	0.293 3	0.883 7	0.000 1	0.312 3	0.583 4	0.079 4	0.422 11	0.068 17	0.660 7	0.418 7	0.298 12	0.430 12	0.114 11	0.526 5	0.776 3	0.051 3	0.679 3	0.946 6	0.152 7	0.000 1	0.183 8	0.000 15	0.211 8	0.511 10	0.409 16	0.565 12	0.355 8	0.448 8	0.512 5	0.557 3	0.000 4	0.000 1	0.420 9	0.000 11	0.007 17	0.104 6	0.000 4	0.125 17	0.330 3	0.514 15	0.146 12	0.321 13	0.860 8	0.174 11	0.000 1	0.629 6	0.075 14	0.000 14	0.000 4	0.000 1	0.002 10	0.671 8	0.712 7	0.141 6	0.339 12	0.856 4	0.261 12	0.529 10	0.067 10	0.835 6	0.000 6	0.369 12	0.000 1	0.259 2	0.000 3	0.629 6	0.000 5	0.487 1	0.000 1	0.579 11	0.646 4	0.107 17	0.720 11	0.122 7	0.000 1	0.333 14	0.505 10	0.303 9	0.908 3	0.503 13	0.565 2	0.074 8	0.324 1	0.000 1	0.740 8	0.661 11	0.109 13	0.000 10	0.427 13	0.563 17	0.000 1	0.579 11	0.108 8	0.000 7	0.000 1	0.664 6	0.000 2	0.000 1	0.641 7	0.539 11	0.416 7	0.515 2	0.256 11	0.940 12	0.312 6	0.209 17	0.620 3	0.138 11	0.636 11	0.000 1	0.000 12	0.775 13	0.861 5	0.765 12	0.000 1	0.801 9	0.119 11	0.860 8	0.000 1	0.687 2	0.001 14	0.192 14	0.679 9	0.699 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, Jian Zhang: Language-Assisted 3D Scene Understanding. arXiv23.12
DITR	0.449 1	0.629 1	0.392 1	0.289 1	0.650 1	0.168 2	0.862 1	0.000 3	0.313 3	0.000 1	0.580 1	0.568 2	0.564 3	0.766 7	0.867 1	0.238 5	0.949 1	0.000 3	0.866 3	0.300 1	0.000 9	0.664 1	0.482 1	0.508 12	0.317 1	0.420 1	0.551 2	0.000 1	0.000 3	0.486 2	0.519 1	0.662 4	0.000 1	0.385 1	0.000 3	0.901 3	0.079 9	0.727 1	0.000 7	0.160 3	0.606 3	0.417 4	0.967 2	0.000 1	0.000 2	0.498 5	0.596 11	0.130 2	0.728 3	0.998 1	0.805 1	0.000 17	0.314 1	0.934 2	0.000 1	0.278 4	0.636 1	0.000 7	0.403 12	0.367 1	0.741 2	0.484 1	0.500 2	1.000 1	0.113 12	0.828 1	0.815 1	0.000 7	0.733 2	0.969 4	0.374 2	0.000 1	0.579 1	1.000 1	0.230 5	0.617 5	0.983 1	0.729 1	0.423 4	0.855 1	0.508 6	0.622 2	0.018 3	0.000 1	0.591 3	0.034 4	0.028 10	0.066 11	0.869 1	0.904 7	0.334 2	0.651 5	0.716 1	0.514 2	0.871 6	0.315 3	0.000 1	0.664 3	0.128 3	0.014 10	0.000 4	0.000 1	0.392 2	0.851 2	0.817 1	0.153 3	0.823 1	0.991 1	0.318 3	0.680 1	0.134 3	0.913 1	0.157 2	0.448 4	0.000 1	0.000 8	0.000 3	0.826 1	0.978 1	0.091 6	0.000 1	0.660 4	0.647 3	0.571 2	0.804 4	0.001 9	0.000 1	0.480 3	0.700 1	0.421 5	0.947 1	0.433 14	0.411 3	0.148 6	0.262 5	0.000 1	0.849 1	0.709 6	0.138 10	0.150 2	0.714 3	0.889 1	0.000 1	0.698 1	0.222 4	0.000 7	0.000 1	0.720 2	0.000 2	0.000 1	0.805 1	0.600 1	0.642 3	0.268 9	0.904 1	0.982 2	0.477 1	0.632 6	0.718 2	0.139 9	0.776 2	0.000 1	0.178 1	0.886 1	0.962 1	0.839 8	0.000 1	0.851 2	0.043 12	0.869 4	0.000 1	0.710 1	0.315 6	0.348 3	0.753 2	0.397 8
Karim Abou Zeid, Kadir Yilmaz, Daan de Geus, Alexander Hermans, David Adrian, Timm Linder, Bastian Leibe: DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation.
CeCo	0.340 7	0.551 9	0.247 13	0.181 6	0.475 12	0.057 15	0.142 12	0.000 3	0.000 7	0.000 1	0.387 6	0.463 6	0.499 9	0.924 2	0.774 11	0.213 6	0.257 13	0.000 3	0.546 15	0.100 11	0.006 8	0.615 2	0.177 17	0.534 7	0.246 6	0.000 9	0.400 5	0.000 1	0.338 1	0.006 16	0.484 5	0.609 5	0.000 1	0.083 11	0.000 3	0.873 9	0.089 5	0.661 14	0.000 7	0.048 15	0.560 4	0.408 6	0.892 8	0.000 1	0.000 2	0.586 1	0.616 8	0.000 10	0.692 8	0.900 8	0.721 12	0.162 1	0.228 6	0.860 11	0.000 1	0.000 11	0.575 5	0.083 3	0.550 4	0.347 4	0.624 13	0.410 10	0.360 9	0.740 3	0.109 13	0.321 15	0.660 8	0.000 7	0.121 9	0.939 13	0.143 8	0.000 1	0.400 2	0.003 13	0.190 11	0.564 6	0.652 10	0.615 11	0.421 5	0.304 13	0.579 1	0.547 5	0.000 4	0.000 1	0.296 14	0.000 11	0.030 9	0.096 7	0.000 4	0.916 4	0.037 13	0.551 12	0.171 9	0.376 7	0.865 7	0.286 5	0.000 1	0.633 5	0.102 12	0.027 8	0.011 3	0.000 1	0.000 11	0.474 14	0.742 5	0.133 7	0.311 13	0.824 8	0.242 13	0.503 14	0.068 9	0.828 9	0.000 6	0.429 7	0.000 1	0.063 5	0.000 3	0.781 2	0.000 5	0.000 9	0.000 1	0.665 2	0.633 6	0.450 6	0.818 2	0.000 10	0.000 1	0.429 5	0.532 7	0.226 13	0.825 11	0.510 11	0.377 5	0.709 2	0.079 14	0.000 1	0.753 5	0.683 8	0.102 15	0.063 5	0.401 16	0.620 13	0.000 1	0.619 3	0.000 14	0.000 7	0.000 1	0.595 13	0.000 2	0.000 1	0.345 14	0.564 6	0.411 8	0.603 1	0.384 8	0.945 9	0.266 11	0.643 5	0.367 14	0.304 1	0.663 10	0.000 1	0.010 7	0.726 15	0.767 7	0.898 3	0.000 1	0.784 13	0.435 1	0.861 7	0.000 1	0.447 11	0.000 15	0.257 7	0.656 11	0.377 10
Zhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia: Understanding Imbalanced Semantic Segmentation Through Neural Collapse. CVPR 2023
PTv3 ScanNet200	0.393 3	0.592 3	0.330 2	0.216 3	0.520 3	0.109 5	0.108 16	0.000 3	0.337 1	0.000 1	0.310 12	0.394 9	0.494 11	0.753 9	0.848 2	0.256 3	0.717 8	0.000 3	0.842 4	0.192 5	0.065 3	0.449 10	0.346 4	0.546 6	0.190 13	0.000 9	0.384 7	0.000 1	0.000 3	0.218 4	0.505 2	0.791 3	0.000 1	0.136 4	0.000 3	0.903 2	0.073 12	0.687 6	0.000 7	0.168 2	0.551 5	0.387 7	0.941 3	0.000 1	0.000 2	0.397 12	0.654 3	0.000 10	0.714 5	0.759 15	0.752 7	0.118 4	0.264 4	0.926 3	0.000 1	0.048 6	0.575 5	0.000 7	0.597 2	0.366 2	0.755 1	0.469 2	0.474 3	0.798 2	0.140 10	0.617 3	0.692 7	0.000 7	0.592 4	0.971 2	0.188 4	0.000 1	0.133 9	0.593 2	0.349 1	0.650 3	0.717 8	0.699 3	0.455 2	0.790 2	0.523 4	0.636 1	0.301 1	0.000 1	0.622 2	0.000 11	0.017 15	0.259 3	0.000 4	0.921 3	0.337 1	0.733 2	0.210 4	0.514 2	0.860 8	0.407 1	0.000 1	0.688 2	0.109 8	0.000 14	0.000 4	0.000 1	0.151 5	0.671 8	0.782 2	0.115 13	0.641 2	0.903 2	0.349 1	0.616 4	0.088 7	0.832 8	0.000 6	0.480 2	0.000 1	0.428 1	0.000 3	0.497 10	0.000 5	0.000 9	0.000 1	0.662 3	0.690 2	0.612 1	0.828 1	0.575 1	0.000 1	0.404 7	0.644 2	0.325 7	0.887 4	0.728 1	0.009 16	0.134 7	0.026 17	0.000 1	0.761 3	0.731 4	0.172 6	0.077 4	0.528 8	0.727 7	0.000 1	0.603 5	0.220 5	0.022 3	0.000 1	0.740 1	0.000 2	0.000 1	0.661 4	0.586 2	0.566 4	0.436 4	0.531 5	0.978 3	0.457 2	0.708 3	0.583 6	0.141 7	0.748 3	0.000 1	0.026 5	0.822 3	0.871 4	0.879 5	0.000 1	0.851 2	0.405 2	0.914 1	0.000 1	0.682 3	0.000 15	0.281 4	0.738 3	0.463 6
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
ALS-MinkowskiNet	0.414 2	0.610 2	0.322 3	0.271 2	0.542 2	0.153 3	0.159 11	0.000 3	0.000 7	0.000 1	0.404 4	0.503 5	0.532 6	0.672 16	0.804 5	0.285 1	0.888 2	0.000 3	0.900 2	0.226 2	0.087 2	0.598 4	0.342 5	0.671 1	0.217 10	0.087 3	0.449 4	0.000 1	0.000 3	0.253 3	0.477 6	1.000 1	0.000 1	0.118 5	0.000 3	0.905 1	0.071 13	0.710 2	0.076 2	0.047 16	0.665 1	0.376 8	0.981 1	0.000 1	0.000 2	0.466 7	0.632 7	0.113 4	0.769 1	0.956 4	0.795 2	0.031 9	0.314 1	0.936 1	0.000 1	0.390 2	0.601 3	0.000 7	0.458 8	0.366 2	0.719 3	0.440 5	0.564 1	0.699 4	0.314 1	0.464 7	0.784 2	0.200 1	0.283 6	0.973 1	0.142 9	0.000 1	0.250 7	0.285 6	0.220 7	0.718 1	0.752 6	0.723 2	0.460 1	0.248 15	0.475 10	0.463 13	0.000 4	0.000 1	0.446 8	0.021 5	0.025 11	0.285 1	0.000 4	0.972 1	0.149 8	0.769 1	0.230 3	0.535 1	0.879 2	0.252 8	0.000 1	0.693 1	0.129 2	0.000 14	0.000 4	0.000 1	0.447 1	0.958 1	0.662 9	0.159 2	0.598 3	0.780 11	0.344 2	0.646 3	0.106 6	0.893 3	0.135 3	0.455 3	0.000 1	0.194 3	0.259 1	0.726 3	0.475 4	0.000 9	0.000 1	0.741 1	0.865 1	0.571 2	0.817 3	0.445 3	0.000 1	0.506 2	0.630 3	0.230 12	0.916 2	0.728 1	0.635 1	1.000 1	0.252 6	0.000 1	0.804 2	0.697 7	0.137 11	0.043 7	0.717 2	0.807 3	0.000 1	0.510 13	0.245 2	0.000 7	0.000 1	0.709 3	0.000 2	0.000 1	0.703 2	0.572 4	0.646 2	0.223 10	0.531 5	0.984 1	0.397 3	0.813 1	0.798 1	0.135 12	0.800 1	0.000 1	0.097 2	0.832 2	0.752 8	0.842 7	0.000 1	0.852 1	0.149 9	0.846 10	0.000 1	0.666 5	0.359 5	0.252 8	0.777 1	0.690 2
Guangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum: ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding. CVPR 2025
IMFSegNet	0.334 9	0.532 13	0.251 11	0.179 7	0.486 9	0.041 16	0.139 13	0.003 1	0.283 4	0.000 1	0.274 15	0.191 15	0.457 14	0.704 14	0.795 7	0.197 9	0.830 6	0.000 3	0.710 9	0.055 16	0.064 4	0.518 6	0.305 10	0.458 17	0.216 12	0.027 5	0.284 13	0.000 1	0.000 3	0.044 12	0.406 10	0.561 7	0.000 1	0.080 12	0.000 3	0.873 9	0.021 15	0.683 8	0.000 7	0.076 9	0.494 10	0.363 9	0.648 16	0.000 1	0.000 2	0.425 9	0.649 4	0.000 10	0.668 12	0.908 7	0.740 11	0.010 14	0.206 8	0.862 10	0.000 1	0.000 11	0.560 9	0.000 7	0.359 13	0.237 11	0.631 12	0.408 11	0.411 4	0.322 15	0.246 4	0.439 10	0.599 13	0.047 4	0.213 7	0.940 10	0.139 11	0.000 1	0.369 5	0.124 10	0.188 12	0.495 11	0.624 11	0.626 8	0.320 14	0.595 4	0.495 8	0.496 10	0.000 4	0.000 1	0.340 12	0.014 6	0.032 7	0.135 5	0.000 4	0.903 8	0.277 6	0.612 8	0.196 7	0.344 12	0.848 13	0.260 6	0.000 1	0.574 13	0.073 16	0.062 4	0.000 4	0.000 1	0.091 6	0.839 3	0.776 3	0.123 12	0.392 9	0.756 12	0.274 5	0.518 12	0.029 16	0.842 4	0.000 6	0.357 13	0.000 1	0.035 7	0.000 3	0.444 12	0.793 2	0.245 5	0.000 1	0.512 16	0.512 15	0.159 15	0.713 13	0.000 10	0.000 1	0.336 13	0.484 12	0.569 2	0.852 9	0.615 6	0.120 12	0.068 10	0.228 8	0.000 1	0.733 10	0.773 2	0.190 4	0.000 10	0.608 6	0.792 4	0.000 1	0.597 7	0.000 14	0.025 2	0.000 1	0.573 17	0.000 2	0.000 1	0.508 11	0.555 8	0.363 10	0.139 12	0.610 2	0.947 8	0.305 7	0.594 9	0.527 9	0.009 17	0.633 13	0.000 1	0.060 3	0.820 5	0.604 15	0.799 9	0.000 1	0.799 11	0.034 14	0.784 13	0.000 1	0.618 6	0.424 2	0.134 16	0.646 13	0.214 14

GSTran	0.334 10	0.533 12	0.250 12	0.179 8	0.487 8	0.041 16	0.139 13	0.003 1	0.273 5	0.000 1	0.273 16	0.189 16	0.465 12	0.704 14	0.794 8	0.198 8	0.831 5	0.000 3	0.712 8	0.055 16	0.063 5	0.518 6	0.306 9	0.459 16	0.217 10	0.028 4	0.282 14	0.000 1	0.000 3	0.044 12	0.405 11	0.558 8	0.000 1	0.080 12	0.000 3	0.873 9	0.020 16	0.684 7	0.000 7	0.075 12	0.496 9	0.363 9	0.651 15	0.000 1	0.000 2	0.425 9	0.648 5	0.000 10	0.669 11	0.914 6	0.741 10	0.009 15	0.200 9	0.864 9	0.000 1	0.000 11	0.560 9	0.000 7	0.357 14	0.233 12	0.633 11	0.408 11	0.411 4	0.320 16	0.242 5	0.440 9	0.598 14	0.047 4	0.205 8	0.940 10	0.139 11	0.000 1	0.372 4	0.138 9	0.191 10	0.495 11	0.618 13	0.624 9	0.321 12	0.595 4	0.496 7	0.499 8	0.000 4	0.000 1	0.340 12	0.014 6	0.032 7	0.136 4	0.000 4	0.903 8	0.279 5	0.601 9	0.198 5	0.345 11	0.849 11	0.260 6	0.000 1	0.573 14	0.072 17	0.060 5	0.000 4	0.000 1	0.089 7	0.838 4	0.775 4	0.125 11	0.381 11	0.752 13	0.274 5	0.517 13	0.032 15	0.841 5	0.000 6	0.354 14	0.000 1	0.047 6	0.000 3	0.439 13	0.787 3	0.252 4	0.000 1	0.512 16	0.507 16	0.158 16	0.717 12	0.000 10	0.000 1	0.337 12	0.483 13	0.570 1	0.853 8	0.614 7	0.121 11	0.070 9	0.229 7	0.000 1	0.732 11	0.773 2	0.193 3	0.000 10	0.606 7	0.791 5	0.000 1	0.593 9	0.000 14	0.010 5	0.000 1	0.574 16	0.000 2	0.000 1	0.507 12	0.554 9	0.361 11	0.136 13	0.608 3	0.948 7	0.304 8	0.593 10	0.533 8	0.011 16	0.634 12	0.000 1	0.060 3	0.821 4	0.613 13	0.797 10	0.000 1	0.799 11	0.036 13	0.782 14	0.000 1	0.609 7	0.423 3	0.133 17	0.647 12	0.213 15

OA-CNN-L_ScanNet200	0.333 11	0.558 5	0.269 9	0.124 13	0.448 14	0.080 9	0.272 5	0.000 3	0.000 7	0.000 1	0.342 8	0.515 4	0.524 7	0.713 13	0.789 9	0.158 12	0.384 12	0.000 3	0.806 6	0.125 7	0.000 9	0.496 8	0.332 7	0.498 14	0.227 8	0.024 6	0.474 3	0.000 1	0.003 2	0.071 9	0.487 3	0.000 11	0.000 1	0.110 8	0.000 3	0.876 7	0.013 17	0.703 3	0.000 7	0.076 9	0.473 12	0.355 11	0.906 6	0.000 1	0.000 2	0.476 6	0.706 1	0.000 10	0.672 10	0.835 13	0.748 9	0.015 13	0.223 7	0.860 11	0.000 1	0.000 11	0.572 7	0.000 7	0.509 7	0.313 7	0.662 4	0.398 13	0.396 8	0.411 13	0.276 2	0.527 4	0.711 5	0.000 7	0.076 13	0.946 6	0.166 6	0.000 1	0.022 10	0.160 7	0.183 13	0.493 13	0.699 9	0.637 6	0.403 6	0.330 12	0.406 13	0.526 6	0.024 2	0.000 1	0.392 11	0.000 11	0.016 16	0.000 12	0.196 3	0.915 5	0.112 12	0.557 10	0.197 6	0.352 10	0.877 3	0.000 12	0.000 1	0.592 12	0.103 11	0.000 14	0.067 1	0.000 1	0.089 7	0.735 7	0.625 11	0.130 9	0.568 6	0.836 7	0.271 8	0.534 9	0.043 13	0.799 11	0.001 5	0.445 5	0.000 1	0.000 8	0.024 2	0.661 4	0.000 5	0.262 3	0.000 1	0.591 8	0.517 13	0.373 8	0.788 7	0.021 8	0.000 1	0.455 4	0.517 9	0.320 8	0.823 12	0.200 16	0.001 17	0.150 5	0.100 12	0.000 1	0.736 9	0.668 10	0.103 14	0.052 6	0.662 4	0.720 8	0.000 1	0.602 6	0.112 7	0.002 6	0.000 1	0.637 9	0.000 2	0.000 1	0.621 10	0.569 5	0.398 9	0.412 5	0.234 12	0.949 6	0.363 5	0.492 14	0.495 11	0.251 4	0.665 9	0.000 1	0.001 11	0.805 7	0.833 6	0.794 11	0.000 1	0.821 5	0.314 5	0.843 11	0.000 1	0.560 10	0.245 7	0.262 6	0.713 4	0.370 11

PonderV2 ScanNet200	0.346 6	0.552 8	0.270 8	0.175 9	0.497 7	0.070 12	0.239 7	0.000 3	0.000 7	0.000 1	0.232 17	0.412 8	0.584 2	0.842 3	0.804 5	0.212 7	0.540 10	0.000 3	0.433 16	0.106 10	0.000 9	0.590 5	0.290 12	0.548 5	0.243 7	0.000 9	0.356 11	0.000 1	0.000 3	0.062 10	0.398 13	0.441 10	0.000 1	0.104 10	0.000 3	0.888 5	0.076 11	0.682 9	0.030 3	0.094 7	0.491 11	0.351 12	0.869 10	0.000 1	0.063 1	0.403 11	0.700 2	0.000 10	0.660 13	0.881 9	0.761 3	0.050 8	0.186 10	0.852 13	0.000 1	0.007 9	0.570 8	0.100 2	0.565 3	0.326 6	0.641 10	0.431 6	0.290 14	0.621 6	0.259 3	0.408 11	0.622 10	0.125 2	0.082 12	0.950 5	0.179 5	0.000 1	0.263 6	0.424 5	0.193 9	0.558 7	0.880 4	0.545 13	0.375 7	0.727 3	0.445 12	0.499 8	0.000 4	0.000 1	0.475 7	0.002 9	0.034 6	0.083 8	0.000 4	0.924 2	0.290 4	0.636 6	0.115 14	0.400 5	0.874 4	0.186 10	0.000 1	0.611 8	0.128 3	0.113 2	0.000 4	0.000 1	0.000 11	0.584 12	0.636 10	0.103 14	0.385 10	0.843 6	0.283 4	0.603 6	0.080 8	0.825 10	0.000 6	0.377 10	0.000 1	0.000 8	0.000 3	0.457 11	0.000 5	0.000 9	0.000 1	0.574 12	0.608 9	0.481 4	0.792 5	0.394 5	0.000 1	0.357 10	0.503 11	0.261 10	0.817 13	0.504 12	0.304 7	0.472 4	0.115 11	0.000 1	0.750 7	0.677 9	0.202 2	0.000 10	0.509 9	0.729 6	0.000 1	0.519 12	0.000 14	0.000 7	0.000 1	0.620 12	0.000 2	0.000 1	0.660 6	0.560 7	0.486 6	0.384 6	0.346 10	0.952 5	0.247 14	0.667 4	0.436 12	0.269 3	0.691 6	0.000 1	0.010 7	0.787 10	0.889 3	0.880 4	0.000 1	0.810 7	0.336 4	0.860 8	0.000 1	0.606 8	0.009 11	0.248 9	0.681 7	0.392 9
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
ODIN - Sem200	0.368 4	0.562 4	0.297 4	0.207 4	0.380 17	0.196 1	0.828 2	0.000 3	0.321 2	0.000 1	0.400 5	0.775 1	0.460 13	0.501 17	0.769 12	0.065 15	0.870 3	0.000 3	0.913 1	0.213 3	0.000 9	0.000 17	0.389 2	0.554 4	0.312 3	0.000 9	0.591 1	0.000 1	0.000 3	0.491 1	0.487 3	0.894 2	0.000 1	0.378 2	0.303 1	0.796 17	0.088 6	0.669 13	0.081 1	0.216 1	0.256 17	0.334 13	0.898 7	0.000 1	0.000 2	0.370 14	0.599 10	0.000 10	0.581 16	0.988 2	0.749 8	0.090 6	0.242 5	0.921 4	0.000 1	0.202 5	0.609 2	0.000 7	0.655 1	0.214 13	0.654 9	0.346 15	0.408 7	0.485 9	0.169 8	0.631 2	0.704 6	0.000 7	0.814 1	0.940 10	0.127 16	0.000 1	0.000 12	0.462 4	0.227 6	0.641 4	0.885 3	0.657 5	0.434 3	0.000 17	0.550 2	0.393 15	0.000 4	0.000 1	0.590 4	0.000 11	0.048 2	0.077 9	0.000 4	0.784 16	0.131 10	0.557 10	0.316 2	0.359 8	0.833 14	0.373 2	0.000 1	0.661 4	0.108 9	0.001 12	0.000 4	0.000 1	0.301 3	0.612 11	0.565 15	0.129 10	0.482 8	0.468 16	0.274 5	0.561 8	0.376 1	0.912 2	0.181 1	0.440 6	0.000 1	0.166 4	0.000 3	0.641 5	0.000 5	0.426 2	0.000 1	0.642 5	0.626 7	0.259 11	0.787 8	0.429 4	0.000 1	0.589 1	0.523 8	0.246 11	0.857 6	0.000 17	0.228 9	0.000 11	0.265 4	0.000 1	0.752 6	0.832 1	0.090 16	0.157 1	0.791 1	0.578 16	0.000 1	0.373 15	0.539 1	0.000 7	0.000 1	0.685 5	0.000 2	0.000 1	0.632 8	0.575 3	0.663 1	0.152 11	0.358 9	0.926 13	0.397 3	0.454 15	0.610 4	0.119 15	0.685 7	0.000 1	0.000 12	0.803 8	0.740 9	0.441 14	0.000 1	0.800 10	0.000 17	0.871 3	0.000 1	0.220 17	0.487 1	0.862 1	0.682 6	0.054 17
Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki: ODIN: A Single Model for 2D and 3D Segmentation. CVPR 2024
LGround	0.272 15	0.485 15	0.184 15	0.106 15	0.476 11	0.077 10	0.218 8	0.000 3	0.000 7	0.000 1	0.547 2	0.295 11	0.540 5	0.746 10	0.745 15	0.058 16	0.112 16	0.005 1	0.658 11	0.077 15	0.000 9	0.322 14	0.178 16	0.512 11	0.190 13	0.199 2	0.277 15	0.000 1	0.000 3	0.173 7	0.399 12	0.000 11	0.000 1	0.039 16	0.000 3	0.858 14	0.085 7	0.676 11	0.002 5	0.103 6	0.498 8	0.323 14	0.703 12	0.000 1	0.000 2	0.296 15	0.549 12	0.216 1	0.702 6	0.768 14	0.718 14	0.028 10	0.092 16	0.786 16	0.000 1	0.000 11	0.453 16	0.022 5	0.251 17	0.252 9	0.572 15	0.348 14	0.321 11	0.514 7	0.063 15	0.279 16	0.552 15	0.000 7	0.019 16	0.932 15	0.132 15	0.000 1	0.000 12	0.000 15	0.156 17	0.457 15	0.623 12	0.518 14	0.265 16	0.358 11	0.381 15	0.395 14	0.000 4	0.000 1	0.127 17	0.012 8	0.051 1	0.000 12	0.000 4	0.886 13	0.014 14	0.437 17	0.179 8	0.244 15	0.826 15	0.000 12	0.000 1	0.599 10	0.136 1	0.085 3	0.000 4	0.000 1	0.000 11	0.565 13	0.612 13	0.143 5	0.207 15	0.566 14	0.232 15	0.446 15	0.127 4	0.708 15	0.000 6	0.384 9	0.000 1	0.000 8	0.000 3	0.402 14	0.000 5	0.059 7	0.000 1	0.525 15	0.566 11	0.229 12	0.659 15	0.000 10	0.000 1	0.265 15	0.446 14	0.147 16	0.720 17	0.597 8	0.066 14	0.000 11	0.187 9	0.000 1	0.726 13	0.467 17	0.134 12	0.000 10	0.413 15	0.629 12	0.000 1	0.363 16	0.055 10	0.022 3	0.000 1	0.626 11	0.000 2	0.000 1	0.323 15	0.479 17	0.154 16	0.117 15	0.028 16	0.901 15	0.243 15	0.415 16	0.295 17	0.143 6	0.610 16	0.000 1	0.000 12	0.777 12	0.397 17	0.324 16	0.000 1	0.778 15	0.179 8	0.702 16	0.000 1	0.274 16	0.404 4	0.233 10	0.622 15	0.398 7
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild. arXiv
Minkowski 34D	0.253 16	0.463 16	0.154 17	0.102 16	0.381 16	0.084 8	0.134 15	0.000 3	0.000 7	0.000 1	0.386 7	0.141 17	0.279 17	0.737 12	0.703 16	0.014 17	0.164 15	0.000 3	0.663 10	0.092 14	0.000 9	0.224 15	0.291 11	0.531 8	0.056 17	0.000 9	0.242 16	0.000 1	0.000 3	0.013 15	0.331 16	0.000 11	0.000 1	0.035 17	0.001 2	0.858 14	0.059 14	0.650 16	0.000 7	0.056 14	0.353 15	0.299 15	0.670 13	0.000 1	0.000 2	0.284 16	0.484 15	0.071 8	0.594 15	0.720 16	0.710 15	0.027 11	0.068 17	0.813 14	0.000 1	0.005 10	0.492 14	0.164 1	0.274 16	0.111 16	0.571 16	0.307 17	0.293 13	0.307 17	0.150 9	0.163 17	0.531 16	0.002 6	0.545 5	0.932 15	0.093 17	0.000 1	0.000 12	0.002 14	0.159 15	0.368 17	0.581 15	0.440 17	0.228 17	0.406 9	0.282 17	0.294 16	0.000 4	0.000 1	0.189 16	0.060 2	0.036 5	0.000 12	0.000 4	0.897 11	0.000 17	0.525 14	0.025 17	0.205 17	0.771 17	0.000 12	0.000 1	0.593 11	0.108 9	0.044 6	0.000 4	0.000 1	0.000 11	0.282 17	0.589 14	0.094 16	0.169 16	0.466 17	0.227 16	0.419 17	0.125 5	0.757 14	0.002 4	0.334 16	0.000 1	0.000 8	0.000 3	0.357 15	0.000 5	0.000 9	0.000 1	0.582 10	0.513 14	0.337 10	0.612 17	0.000 10	0.000 1	0.250 16	0.352 17	0.136 17	0.724 16	0.655 4	0.280 8	0.000 11	0.046 16	0.000 1	0.606 17	0.559 15	0.159 7	0.102 3	0.445 10	0.655 9	0.000 1	0.310 17	0.117 6	0.000 7	0.000 1	0.581 15	0.026 1	0.000 1	0.265 17	0.483 16	0.084 17	0.097 17	0.044 15	0.865 17	0.142 17	0.588 11	0.351 15	0.272 2	0.596 17	0.000 1	0.003 10	0.622 16	0.720 10	0.096 17	0.000 1	0.771 16	0.016 15	0.772 15	0.000 1	0.302 14	0.194 9	0.214 12	0.621 16	0.197 16
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
AWCS	0.305 14	0.508 14	0.225 14	0.142 11	0.463 13	0.063 13	0.195 9	0.000 3	0.000 7	0.000 1	0.467 3	0.551 3	0.504 8	0.773 6	0.764 14	0.142 13	0.029 17	0.000 3	0.626 13	0.100 11	0.000 9	0.360 13	0.179 15	0.507 13	0.137 15	0.006 8	0.300 12	0.000 1	0.000 3	0.172 8	0.364 15	0.512 9	0.000 1	0.056 14	0.000 3	0.865 13	0.093 4	0.634 17	0.000 7	0.071 13	0.396 14	0.296 16	0.876 9	0.000 1	0.000 2	0.373 13	0.436 16	0.063 9	0.749 2	0.877 10	0.721 12	0.131 3	0.124 14	0.804 15	0.000 1	0.000 11	0.515 12	0.010 6	0.452 10	0.252 9	0.578 14	0.417 8	0.179 17	0.484 10	0.171 7	0.337 14	0.606 12	0.000 7	0.115 10	0.937 14	0.142 9	0.000 1	0.008 11	0.000 15	0.157 16	0.484 14	0.402 17	0.501 15	0.339 9	0.553 7	0.529 3	0.478 12	0.000 4	0.000 1	0.404 10	0.001 10	0.022 13	0.077 9	0.000 4	0.894 12	0.219 7	0.628 7	0.093 15	0.305 14	0.886 1	0.233 9	0.000 1	0.603 9	0.112 6	0.023 9	0.000 4	0.000 1	0.000 11	0.741 6	0.664 8	0.097 15	0.253 14	0.782 10	0.264 11	0.523 11	0.154 2	0.707 16	0.000 6	0.411 8	0.000 1	0.000 8	0.000 3	0.332 16	0.000 5	0.000 9	0.000 1	0.602 7	0.595 10	0.185 13	0.656 16	0.159 6	0.000 1	0.355 11	0.424 15	0.154 15	0.729 15	0.516 10	0.220 10	0.620 3	0.084 13	0.000 1	0.707 14	0.651 13	0.173 5	0.014 9	0.381 17	0.582 14	0.000 1	0.619 3	0.049 12	0.000 7	0.000 1	0.702 4	0.000 2	0.000 1	0.302 16	0.489 15	0.317 13	0.334 7	0.392 7	0.922 14	0.254 13	0.533 13	0.394 13	0.129 14	0.613 15	0.000 1	0.000 12	0.820 5	0.649 11	0.749 13	0.000 1	0.782 14	0.282 6	0.863 6	0.000 1	0.288 15	0.006 12	0.220 11	0.633 14	0.542 3
: Long-Tailed 3D Semantic Segmentation with Adaptive Weight Constraint and Sampling. ICRA 2024
CSC-Pretrain	0.249 17	0.455 17	0.171 16	0.079 17	0.418 15	0.059 14	0.186 10	0.000 3	0.000 7	0.000 1	0.335 10	0.250 13	0.316 16	0.766 7	0.697 17	0.142 13	0.170 14	0.003 2	0.553 14	0.112 9	0.097 1	0.201 16	0.186 14	0.476 15	0.081 16	0.000 9	0.216 17	0.000 1	0.000 3	0.001 17	0.314 17	0.000 11	0.000 1	0.055 15	0.000 3	0.832 16	0.094 3	0.659 15	0.002 5	0.076 9	0.310 16	0.293 17	0.664 14	0.000 1	0.000 2	0.175 17	0.634 6	0.130 2	0.552 17	0.686 17	0.700 17	0.076 7	0.110 15	0.770 17	0.000 1	0.000 11	0.430 17	0.000 7	0.319 15	0.166 15	0.542 17	0.327 16	0.205 16	0.332 14	0.052 16	0.375 13	0.444 17	0.000 7	0.012 17	0.930 17	0.203 3	0.000 1	0.000 12	0.046 12	0.175 14	0.413 16	0.592 14	0.471 16	0.299 15	0.152 16	0.340 16	0.247 17	0.000 4	0.000 1	0.225 15	0.058 3	0.037 4	0.000 12	0.207 2	0.862 15	0.014 14	0.548 13	0.033 16	0.233 16	0.816 16	0.000 12	0.000 1	0.542 15	0.123 5	0.121 1	0.019 2	0.000 1	0.000 11	0.463 16	0.454 17	0.045 17	0.128 17	0.557 15	0.235 14	0.441 16	0.063 11	0.484 17	0.000 6	0.308 17	0.000 1	0.000 8	0.000 3	0.318 17	0.000 5	0.000 9	0.000 1	0.545 14	0.543 12	0.164 14	0.734 9	0.000 10	0.000 1	0.215 17	0.371 16	0.198 14	0.743 14	0.205 15	0.062 15	0.000 11	0.079 14	0.000 1	0.683 16	0.547 16	0.142 9	0.000 10	0.441 11	0.579 15	0.000 1	0.464 14	0.098 9	0.041 1	0.000 1	0.590 14	0.000 2	0.000 1	0.373 13	0.494 14	0.174 15	0.105 16	0.001 17	0.895 16	0.222 16	0.537 12	0.307 16	0.180 5	0.625 14	0.000 1	0.000 12	0.591 17	0.609 14	0.398 15	0.000 1	0.766 17	0.014 16	0.638 17	0.000 1	0.377 13	0.004 13	0.206 13	0.609 17	0.465 5
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021

This table lists the benchmark results for the ScanNet200 3D semantic instance scenario.

Method	avg ap 25%	head ap 25%	common ap 25%	tail ap 25%	backpack	bag	ball	bar	basket	bathroom cabinet	bathroom stall	bathroom stall door	bathroom vanity	bathtub	bed	bench	bicycle	bin	blackboard	blanket	blinds	board	book	bookshelf	bottle	bowl	box	broom	bucket	bulletin board	cabinet	calendar	candle	cart	case of water bottles	ceiling	ceiling light	chair	clock	closet	closet rod	clothes	clothes dryer	coat rack	coffee kettle	coffee maker	coffee table	column	computer tower	copier	couch	counter	cup	curtain	cushion	decoration	desk	dining table	dish rack	dishwasher	door	doorframe	dresser	dumbbell	end table	fan	file cabinet	fire alarm	fire extinguisher	folded chair	hat	headphones	ironing board	jacket	keyboard	keyboard piano	kitchen cabinet	kitchen counter	ladder	lamp	laptop	laundry basket	laundry detergent	laundry hamper	ledge	light	light switch	machine	mailbox	mat	microwave	mini fridge	mirror	monitor	mouse	music stand	nightstand	object	office chair	oven	paper	paper bag	paper cutter	paper towel dispenser	paper towel roll	person	piano	picture	pillow	pipe	plant	plate	plunger	poster	power outlet	power strip	printer	projector	projector screen	rack	radiator	range hood	recycling bin	refrigerator	scale	seat	shelf	shoe	shower	shower curtain	shower curtain rod	shower floor	shower head	shower wall	sign	sink	soap dispenser	sofa chair	speaker	stair rail	stairs	stand	stool	storage bin	storage container	storage organizer	stove	structure	stuffed animal	suitcase	table	telephone	tissue box	toaster	toilet	toilet paper	toilet paper dispenser	towel	trash bin	trash can	tray	tube	tv	tv stand	vacuum cleaner	vent	wardrobe	washing machine	water bottle	water cooler	water pitcher	whiteboard	window	windowsill

ODIN - Ins200	0.451 1	0.637 2	0.407 1	0.277 1	0.583 5	0.116 1	0.500 1	0.000 1	0.125 1	0.000 1	0.599 2	0.823 2	0.407 4	0.667 6	0.941 3	0.542 3	1.000 1	0.000 3	1.000 1	0.162 3	0.000 2	0.028 5	0.357 2	0.695 3	0.550 1	0.000 1	0.475 1	0.000 1	0.000 2	0.714 1	0.626 1	1.000 1	0.000 1	0.500 1	0.125 1	0.749 2	0.080 2	0.742 6	0.528 1	0.078 3	0.500 2	0.334 1	0.667 1	0.333 1	0.000 1	0.278 6	0.723 5	0.250 4	0.859 4	1.000 1	0.826 6	0.108 3	0.221 1	0.763 1	0.000 3	0.250 1	0.742 3	0.500 3	0.750 1	0.400 3	0.855 1	0.769 1	0.701 1	0.469 4	0.203 1	0.406 2	0.870 2	0.000 2	0.963 1	0.200 3	0.000 1	0.000 3	0.500 1	0.370 1	0.886 1	1.000 1	0.782 2	0.504 3	0.429 4	0.494 1	0.337 3	0.000 1	0.000 1	0.600 1	0.000 4	0.215 3	0.226 2	0.000 1	0.944 2	0.200 3	0.887 1	0.750 1	0.874 1	0.877 3	0.438 1	0.000 1	0.867 3	0.089 3	0.003 3	0.500 1	0.000 2	0.333 1	1.000 1	0.742 2	0.125 1	0.671 1	0.417 4	0.616 5	0.637 1	0.238 1	0.873 1	0.528 1	0.494 5	0.000 1	0.250 3	0.000 2	0.688 1	0.000 1	1.000 1	0.000 1	0.872 1	0.833 2	0.275 1	0.779 5	1.000 1	0.000 3	0.441 1	0.577 1	0.167 2	1.000 1	0.500 5	0.777 3	0.000 2	0.778 2	0.000 3	0.910 2	0.800 2	0.232 4	0.019 3	0.717 1	0.833 5	0.000 3	0.638 1	0.284 1	0.000 3	0.000 2	0.778 1	0.000 1	0.000 1	0.597 1	0.699 3	0.850 1	0.333 3	0.250 3	0.944 5	0.571 1	0.677 3	0.795 1	0.264 4	0.852 2	0.000 1	0.000 2	0.824 1	1.000 1	0.668 3	0.000 1	0.000 4	0.667 3	0.000 1	0.333 5	0.333 2	0.760 1	0.679 3	0.404 2

TD3D Scannet200	0.379 3	0.603 3	0.306 3	0.190 3	0.635 2	0.073 3	0.500 1	0.000 1	0.000 2	0.000 1	0.495 4	0.735 3	0.275 6	1.000 1	0.979 2	0.590 2	0.000 5	0.021 2	0.000 4	0.146 4	0.000 2	0.356 2	0.173 6	0.795 1	0.226 3	0.000 1	0.173 3	0.000 1	0.000 2	0.226 3	0.390 3	0.000 3	0.000 1	0.250 2	0.000 2	0.706 3	0.061 4	0.885 1	0.093 3	0.186 2	0.259 5	0.200 2	0.667 1	0.000 3	0.000 1	0.667 2	0.825 1	0.250 4	0.834 5	1.000 1	0.958 1	0.553 1	0.111 4	0.748 2	0.220 2	0.051 3	0.866 2	0.792 1	0.390 6	0.045 6	0.800 3	0.302 6	0.517 2	0.533 3	0.113 3	0.427 1	0.843 3	0.000 2	0.458 2	0.600 1	0.000 1	0.101 2	0.000 2	0.259 2	0.717 3	0.500 3	0.615 3	0.520 2	0.526 2	0.457 2	0.270 5	0.000 1	0.000 1	0.400 3	0.088 2	0.294 2	0.181 3	0.000 1	1.000 1	0.400 1	0.710 6	0.103 4	0.477 6	0.905 2	0.061 3	0.000 1	0.906 2	0.102 2	0.232 1	0.125 3	0.000 2	0.003 3	0.792 4	1.000 1	0.000 3	0.102 4	0.125 5	0.559 6	0.523 4	0.075 3	0.715 2	0.000 3	0.424 6	0.000 1	0.396 2	0.250 1	0.638 2	0.000 1	0.000 3	0.000 1	0.622 6	0.833 2	0.221 2	0.970 1	0.250 3	0.038 1	0.260 3	0.415 2	0.125 3	1.000 1	1.000 1	0.857 2	0.000 2	0.908 1	0.012 1	0.869 4	0.836 1	0.635 1	0.111 1	0.625 2	1.000 1	0.020 2	0.510 2	0.003 4	0.009 2	1.000 1	0.778 1	0.000 1	0.000 1	0.370 4	0.755 1	0.288 3	0.333 3	0.274 2	1.000 1	0.557 2	0.731 2	0.456 3	0.433 3	0.769 6	0.000 1	0.000 2	0.621 5	1.000 1	0.458 5	0.000 1	0.196 2	0.817 1	0.000 1	0.472 1	0.222 4	0.205 6	0.689 2	0.274 4
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
LGround Inst.	0.314 4	0.529 4	0.225 4	0.155 4	0.578 6	0.010 4	0.500 1	0.000 1	0.000 2	0.000 1	0.515 3	0.556 4	0.696 1	1.000 1	0.927 4	0.400 4	0.083 4	0.000 3	1.000 1	0.252 1	0.000 2	0.167 3	0.350 3	0.731 2	0.067 4	0.000 1	0.123 5	0.000 1	0.000 2	0.036 4	0.372 4	0.000 3	0.000 1	0.250 2	0.000 2	0.569 5	0.031 6	0.810 3	0.000 4	0.000 5	0.630 1	0.183 3	0.278 4	0.000 3	0.000 1	0.582 4	0.589 6	0.500 2	0.863 3	1.000 1	0.940 2	0.000 5	0.144 2	0.716 4	0.000 3	0.000 4	0.484 4	0.000 4	0.500 4	0.400 3	0.798 4	0.500 3	0.278 5	0.750 1	0.093 4	0.166 5	0.783 4	0.000 2	0.200 3	0.400 2	0.000 1	0.000 3	0.000 2	0.219 3	0.539 4	0.500 3	0.578 4	0.413 4	0.181 6	0.457 3	0.375 2	0.000 1	0.000 1	0.050 6	0.000 4	0.077 5	0.000 4	0.000 1	0.500 6	0.000 6	0.743 4	0.250 3	0.488 5	0.846 4	0.000 4	0.000 1	0.800 4	0.069 4	0.000 4	0.000 4	0.000 2	0.000 4	1.000 1	0.607 5	0.000 3	0.200 2	0.500 1	0.694 2	0.528 3	0.063 4	0.659 3	0.000 3	0.594 2	0.000 1	0.000 4	0.000 2	0.571 3	0.000 1	0.000 3	0.000 1	0.716 5	0.647 6	0.221 3	0.857 4	0.000 4	0.000 3	0.217 4	0.346 4	0.071 6	0.530 6	1.000 1	0.429 4	0.000 2	0.286 4	0.000 3	0.826 6	0.706 4	0.208 5	0.000 4	0.250 5	0.744 6	0.000 3	0.500 3	0.042 2	0.000 3	0.000 2	0.746 4	0.000 1	0.000 1	0.517 2	0.625 4	0.085 6	0.333 3	0.000 5	1.000 1	0.378 5	0.533 6	0.376 5	0.042 6	0.814 4	0.000 1	0.000 2	0.765 4	1.000 1	0.600 4	0.000 1	0.000 4	0.667 3	0.000 1	0.472 1	0.333 2	0.337 4	0.605 4	0.305 3
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild.
Minkowski 34D Inst.	0.280 5	0.488 5	0.192 6	0.124 5	0.593 4	0.010 5	0.500 1	0.000 1	0.000 2	0.000 1	0.447 5	0.535 5	0.445 3	1.000 1	0.861 5	0.400 4	0.225 3	0.000 3	0.000 4	0.142 5	0.000 2	0.074 4	0.342 4	0.467 6	0.067 4	0.000 1	0.119 6	0.000 1	0.000 2	0.000 5	0.337 6	0.000 3	0.000 1	0.000 5	0.000 2	0.506 6	0.070 3	0.804 4	0.000 4	0.000 5	0.333 4	0.172 4	0.150 6	0.000 3	0.000 1	0.479 5	0.745 3	0.000 6	0.830 6	1.000 1	0.904 3	0.167 2	0.090 5	0.732 3	0.000 3	0.000 4	0.443 5	0.000 4	0.500 4	0.542 1	0.772 6	0.396 5	0.077 6	0.385 5	0.044 5	0.118 6	0.777 5	0.000 2	0.000 5	0.200 3	0.000 1	0.000 3	0.000 2	0.148 5	0.502 5	0.500 3	0.419 5	0.159 6	0.281 5	0.404 6	0.317 4	0.000 1	0.000 1	0.200 4	0.000 4	0.077 4	0.000 4	0.000 1	0.750 4	0.200 3	0.715 5	0.021 5	0.551 3	0.828 6	0.000 4	0.000 1	0.743 5	0.059 6	0.000 4	0.000 4	0.000 2	0.000 4	0.125 6	0.648 4	0.000 3	0.191 3	0.500 1	0.669 4	0.502 5	0.000 6	0.568 5	0.000 3	0.516 4	0.000 1	0.000 4	0.000 2	0.305 6	0.000 1	0.000 3	0.000 1	0.825 2	0.833 2	0.021 6	0.918 2	0.000 4	0.000 3	0.191 5	0.346 5	0.100 5	0.981 4	1.000 1	0.286 5	0.000 2	0.000 6	0.000 3	0.868 5	0.648 6	0.292 3	0.000 4	0.375 4	1.000 1	0.000 3	0.500 3	0.000 5	0.333 1	0.000 2	0.538 6	0.000 1	0.000 1	0.213 6	0.518 5	0.098 5	0.528 1	0.250 3	0.997 3	0.284 6	0.677 3	0.398 4	0.167 5	0.790 5	0.000 1	0.000 2	0.618 6	0.903 6	0.200 6	0.000 1	0.333 1	0.333 5	0.000 1	0.442 3	0.083 5	0.213 5	0.587 5	0.131 6
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
CSC-Pretrain Inst.	0.275 6	0.466 6	0.218 5	0.110 6	0.625 3	0.007 6	0.500 1	0.000 1	0.000 2	0.000 1	0.000 6	0.222 6	0.377 5	1.000 1	0.661 6	0.400 4	0.000 5	0.000 3	0.000 4	0.119 6	0.000 2	0.000 6	0.277 5	0.685 5	0.067 4	0.000 1	0.132 4	0.000 1	0.000 2	0.000 5	0.367 5	0.000 3	0.000 1	0.000 5	0.000 2	0.591 4	0.055 5	0.783 5	0.000 4	0.014 4	0.500 2	0.161 5	0.278 4	0.000 3	0.000 1	0.667 2	0.768 2	0.500 2	0.866 2	1.000 1	0.829 5	0.000 5	0.019 6	0.555 6	0.000 3	0.000 4	0.305 6	0.000 4	0.750 1	0.200 5	0.783 5	0.429 4	0.395 4	0.677 2	0.020 6	0.286 4	0.584 6	0.000 2	0.000 5	0.115 6	0.000 1	0.000 3	0.000 2	0.145 6	0.423 6	0.500 3	0.364 6	0.369 5	0.571 1	0.448 4	0.206 6	0.000 1	0.000 1	0.200 4	0.106 1	0.065 6	0.000 4	0.000 1	0.750 4	0.200 3	0.774 3	0.000 6	0.501 4	0.841 5	0.000 4	0.000 1	0.692 6	0.063 5	0.000 4	0.000 4	0.000 2	0.000 4	0.500 5	0.649 3	0.000 3	0.084 5	0.125 5	0.719 1	0.413 6	0.004 5	0.450 6	0.000 3	0.638 1	0.000 1	0.000 4	0.000 2	0.505 4	0.000 1	0.000 3	0.000 1	0.727 4	0.833 2	0.221 3	0.779 5	0.000 4	0.000 3	0.168 6	0.311 6	0.125 3	0.571 5	0.500 5	0.143 6	0.000 2	0.250 5	0.000 3	0.869 3	0.667 5	0.162 6	0.000 4	0.250 5	1.000 1	0.000 3	0.500 3	0.000 5	0.000 3	0.000 2	0.689 5	0.000 1	0.000 1	0.312 5	0.383 6	0.114 4	0.333 3	0.000 5	0.997 3	0.420 4	0.613 5	0.212 6	0.500 2	0.819 3	0.000 1	0.000 2	0.768 3	1.000 1	0.918 1	0.000 1	0.000 4	0.278 6	0.000 1	0.333 5	0.000 6	0.353 3	0.546 6	0.258 5
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
Mask3D Scannet200	0.445 2	0.653 1	0.392 2	0.254 2	0.648 1	0.097 2	0.125 6	0.000 1	0.000 2	0.000 1	0.657 1	0.971 1	0.451 2	1.000 1	1.000 1	0.640 1	0.500 2	0.045 1	1.000 1	0.241 2	0.409 1	0.363 1	0.440 1	0.686 4	0.300 2	0.000 1	0.201 2	0.000 1	0.009 1	0.290 2	0.556 2	1.000 1	0.000 1	0.063 4	0.000 2	0.830 1	0.573 1	0.844 2	0.333 2	0.204 1	0.058 6	0.158 6	0.552 3	0.056 2	0.000 1	1.000 1	0.725 4	0.750 1	0.927 1	1.000 1	0.888 4	0.042 4	0.120 3	0.615 5	0.226 1	0.250 1	0.890 1	0.792 1	0.677 3	0.510 2	0.818 2	0.699 2	0.512 3	0.167 6	0.125 2	0.315 3	0.943 1	0.309 1	0.017 4	0.200 3	0.000 1	0.188 1	0.000 2	0.183 4	0.815 2	1.000 1	0.827 1	0.741 1	0.442 3	0.414 5	0.600 1	0.000 1	0.000 1	0.458 2	0.049 3	0.321 1	0.381 1	0.000 1	0.908 3	0.400 1	0.841 2	0.260 2	0.710 2	0.966 1	0.265 2	0.000 1	0.924 1	0.152 1	0.025 2	0.500 1	0.027 1	0.028 2	1.000 1	0.556 6	0.016 2	0.080 6	0.500 1	0.694 3	0.608 2	0.084 2	0.604 4	0.194 2	0.538 3	0.000 1	0.500 1	0.000 2	0.354 5	0.000 1	1.000 1	0.000 1	0.761 3	0.930 1	0.053 5	0.890 3	1.000 1	0.008 2	0.262 2	0.358 3	1.000 1	1.000 1	0.792 4	0.966 1	1.000 1	0.765 3	0.004 2	0.930 1	0.780 3	0.330 2	0.027 2	0.625 2	0.974 4	0.050 1	0.412 6	0.021 3	0.000 3	0.000 2	0.778 1	0.000 1	0.000 1	0.493 3	0.746 2	0.454 2	0.335 2	0.396 1	0.930 6	0.551 3	1.000 1	0.552 2	0.606 1	0.853 1	0.000 1	0.004 1	0.806 2	1.000 1	0.727 2	0.000 1	0.042 3	0.745 2	0.000 1	0.399 4	0.391 1	0.630 2	0.721 1	0.619 1
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023

ScanNet Benchmark

This table lists the benchmark results for the 3D semantic label scenario.

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

PTv3-PPT-ALC	0.798 1	0.911 11	0.812 23	0.854 8	0.770 12	0.856 15	0.555 17	0.943 1	0.660 26	0.735 2	0.979 1	0.606 7	0.492 1	0.792 4	0.934 4	0.841 2	0.819 6	0.716 9	0.947 10	0.906 1	0.822 1
Guangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum: ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding. CVPR 2025
DITR ScanNet	0.797 2	0.727 77	0.869 1	0.882 1	0.785 6	0.868 7	0.578 5	0.943 1	0.744 1	0.727 3	0.979 1	0.627 2	0.364 9	0.824 1	0.949 2	0.779 15	0.844 1	0.757 1	0.982 1	0.905 2	0.802 3
Karim Abou Zeid, Kadir Yilmaz, Daan de Geus, Alexander Hermans, David Adrian, Timm Linder, Bastian Leibe: DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation.
PTv3 ScanNet	0.794 3	0.941 3	0.813 22	0.851 11	0.782 7	0.890 2	0.597 1	0.916 6	0.696 11	0.713 5	0.979 1	0.635 1	0.384 3	0.793 3	0.907 10	0.821 5	0.790 37	0.696 14	0.967 4	0.903 3	0.805 2
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
PonderV2	0.785 4	0.978 1	0.800 31	0.833 30	0.788 4	0.853 20	0.545 21	0.910 9	0.713 3	0.705 6	0.979 1	0.596 9	0.390 2	0.769 15	0.832 45	0.821 5	0.792 36	0.730 2	0.975 2	0.897 6	0.785 7
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
Mix3D	0.781 5	0.964 2	0.855 2	0.843 20	0.781 8	0.858 13	0.575 8	0.831 40	0.685 17	0.714 4	0.979 1	0.594 10	0.310 31	0.801 2	0.892 19	0.841 2	0.819 6	0.723 6	0.940 15	0.887 8	0.725 29
Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann: Mix3D: Out-of-Context Data Augmentation for 3D Scenes. 3DV 2021 (Oral)
Swin3D	0.779 6	0.861 24	0.818 17	0.836 27	0.790 3	0.875 4	0.576 7	0.905 10	0.704 7	0.739 1	0.969 12	0.611 3	0.349 12	0.756 25	0.958 1	0.702 52	0.805 20	0.708 10	0.916 39	0.898 5	0.801 4

TTT-KD	0.773 7	0.646 98	0.818 17	0.809 42	0.774 10	0.878 3	0.581 3	0.943 1	0.687 15	0.704 7	0.978 6	0.607 6	0.336 20	0.775 11	0.912 8	0.838 4	0.823 4	0.694 15	0.967 4	0.899 4	0.794 6
Lisa Weijler, Muhammad Jehanzeb Mirza, Leon Sick, Can Ekkazan, Pedro Hermosilla: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models.
ResLFE_HDS	0.772 8	0.939 4	0.824 7	0.854 8	0.771 11	0.840 35	0.564 13	0.900 12	0.686 16	0.677 14	0.961 18	0.537 36	0.348 13	0.769 15	0.903 12	0.785 13	0.815 9	0.676 26	0.939 16	0.880 13	0.772 11

PPT-SpUNet-Joint	0.766 9	0.932 5	0.794 37	0.829 32	0.751 26	0.854 18	0.540 25	0.903 11	0.630 39	0.672 18	0.963 16	0.565 26	0.357 10	0.788 5	0.900 14	0.737 31	0.802 21	0.685 20	0.950 8	0.887 8	0.780 8
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer	0.766 9	0.925 7	0.808 27	0.849 13	0.786 5	0.846 30	0.566 12	0.876 19	0.690 13	0.674 17	0.960 19	0.576 22	0.226 74	0.753 27	0.904 11	0.777 16	0.815 9	0.722 7	0.923 31	0.877 17	0.776 10
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
CU-Hybrid Net	0.764 11	0.924 8	0.819 14	0.840 23	0.757 21	0.853 20	0.580 4	0.848 32	0.709 5	0.643 28	0.958 24	0.587 16	0.295 39	0.753 27	0.884 23	0.758 23	0.815 9	0.725 5	0.927 27	0.867 28	0.743 20

OccuSeg+Semantic	0.764 11	0.758 62	0.796 35	0.839 24	0.746 30	0.907 1	0.562 14	0.850 31	0.680 19	0.672 18	0.978 6	0.610 4	0.335 22	0.777 9	0.819 49	0.847 1	0.830 3	0.691 17	0.972 3	0.885 10	0.727 27

O-CNN	0.762 13	0.924 8	0.823 8	0.844 19	0.770 12	0.852 22	0.577 6	0.847 34	0.711 4	0.640 32	0.958 24	0.592 11	0.217 80	0.762 20	0.888 20	0.758 23	0.813 13	0.726 4	0.932 25	0.868 27	0.744 19
Peng-Shuai Wang, Yang Liu, Yu-Xiao Guo, Chun-Yu Sun, Xin Tong: O-CNN: Octree-based Convolutional Neural Networks for 3D Shape Analysis. SIGGRAPH 2017
DiffSegNet	0.758 14	0.725 79	0.789 42	0.843 20	0.762 17	0.856 15	0.562 14	0.920 4	0.657 29	0.658 22	0.958 24	0.589 14	0.337 19	0.782 6	0.879 24	0.787 11	0.779 42	0.678 22	0.926 29	0.880 13	0.799 5

DTC	0.757 15	0.843 30	0.820 12	0.847 16	0.791 2	0.862 11	0.511 39	0.870 23	0.707 6	0.652 24	0.954 41	0.604 8	0.279 50	0.760 21	0.942 3	0.734 32	0.766 51	0.701 13	0.884 62	0.874 23	0.736 21

OA-CNN-L_ScanNet20	0.756 16	0.783 48	0.826 6	0.858 6	0.776 9	0.837 40	0.548 20	0.896 15	0.649 31	0.675 16	0.962 17	0.586 17	0.335 22	0.771 14	0.802 54	0.770 19	0.787 39	0.691 17	0.936 20	0.880 13	0.761 14

PNE	0.755 17	0.786 46	0.835 5	0.834 29	0.758 19	0.849 25	0.570 10	0.836 39	0.648 32	0.668 20	0.978 6	0.581 20	0.367 7	0.683 40	0.856 33	0.804 8	0.801 25	0.678 22	0.961 6	0.889 7	0.716 36
P. Hermosilla: Point Neighborhood Embeddings.
LSK3DNet	0.755 17	0.899 17	0.823 8	0.843 20	0.764 16	0.838 38	0.584 2	0.845 35	0.717 2	0.638 34	0.956 31	0.580 21	0.229 73	0.640 50	0.900 14	0.750 26	0.813 13	0.729 3	0.920 35	0.872 25	0.757 15
Tuo Feng, Wenguan Wang, Fan Ma, Yi Yang: LSK3DNet: Towards Effective and Efficient 3D Perception with Large Sparse Kernels. CVPR 2024
ConDaFormer	0.755 17	0.927 6	0.822 10	0.836 27	0.801 1	0.849 25	0.516 36	0.864 28	0.651 30	0.680 13	0.958 24	0.584 19	0.282 47	0.759 23	0.855 35	0.728 34	0.802 21	0.678 22	0.880 67	0.873 24	0.756 17
Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Guisong Xia, Dacheng Tao: ConDaFormer : Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding. Neurips, 2023
DMF-Net	0.752 20	0.906 15	0.793 39	0.802 48	0.689 47	0.825 53	0.556 16	0.867 24	0.681 18	0.602 51	0.960 19	0.555 32	0.365 8	0.779 8	0.859 30	0.747 27	0.795 33	0.717 8	0.917 38	0.856 36	0.764 13
C.Yang, Y.Yan, W.Zhao, J.Ye, X.Yang, A.Hussain, B.Dong, K.Huang: Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic Segmentation. ICONIP 2023
PointTransformerV2	0.752 20	0.742 69	0.809 26	0.872 2	0.758 19	0.860 12	0.552 18	0.891 17	0.610 46	0.687 8	0.960 19	0.559 30	0.304 34	0.766 18	0.926 6	0.767 20	0.797 29	0.644 39	0.942 13	0.876 20	0.722 32
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao: Point Transformer V2: Grouped Vector Attention and Partition-based Pooling. NeurIPS 2022
PointConvFormer	0.749 22	0.793 44	0.790 40	0.807 44	0.750 28	0.856 15	0.524 32	0.881 18	0.588 59	0.642 31	0.977 10	0.591 12	0.274 53	0.781 7	0.929 5	0.804 8	0.796 30	0.642 40	0.947 10	0.885 10	0.715 37
Wenxuan Wu, Qi Shan, Li Fuxin: PointConvFormer: Revenge of the Point-based Convolution.
BPNet	0.749 22	0.909 13	0.818 17	0.811 40	0.752 24	0.839 37	0.485 54	0.842 36	0.673 21	0.644 27	0.957 29	0.528 43	0.305 33	0.773 12	0.859 30	0.788 10	0.818 8	0.693 16	0.916 39	0.856 36	0.723 31
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MSP	0.748 24	0.623 101	0.804 29	0.859 5	0.745 31	0.824 55	0.501 43	0.912 8	0.690 13	0.685 10	0.956 31	0.567 25	0.320 28	0.768 17	0.918 7	0.720 39	0.802 21	0.676 26	0.921 33	0.881 12	0.779 9

StratifiedFormer	0.747 25	0.901 16	0.803 30	0.845 18	0.757 21	0.846 30	0.512 38	0.825 43	0.696 11	0.645 26	0.956 31	0.576 22	0.262 64	0.744 33	0.861 29	0.742 29	0.770 49	0.705 11	0.899 51	0.860 33	0.734 22
Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia: Stratified Transformer for 3D Point Cloud Segmentation. CVPR 2022
Virtual MVFusion	0.746 26	0.771 56	0.819 14	0.848 15	0.702 43	0.865 10	0.397 92	0.899 13	0.699 9	0.664 21	0.948 63	0.588 15	0.330 24	0.746 32	0.851 39	0.764 21	0.796 30	0.704 12	0.935 21	0.866 29	0.728 25
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
VMNet	0.746 26	0.870 22	0.838 3	0.858 6	0.729 36	0.850 24	0.501 43	0.874 20	0.587 60	0.658 22	0.956 31	0.564 27	0.299 36	0.765 19	0.900 14	0.716 42	0.812 15	0.631 45	0.939 16	0.858 34	0.709 38
Zeyu HU, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai: VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation. ICCV 2021 (Oral)
DiffSeg3D2	0.745 28	0.725 79	0.814 21	0.837 25	0.751 26	0.831 47	0.514 37	0.896 15	0.674 20	0.684 11	0.960 19	0.564 27	0.303 35	0.773 12	0.820 48	0.713 45	0.798 28	0.690 19	0.923 31	0.875 21	0.757 15

ODIN	0.744 29	0.658 94	0.752 65	0.870 3	0.714 40	0.843 33	0.569 11	0.919 5	0.703 8	0.622 41	0.949 60	0.591 12	0.343 15	0.736 34	0.784 56	0.816 7	0.838 2	0.672 31	0.918 37	0.854 40	0.725 29
Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki: ODIN: A Single Model for 2D and 3D Segmentation. CVPR 2024
Retro-FPN	0.744 29	0.842 31	0.800 31	0.767 62	0.740 32	0.836 42	0.541 23	0.914 7	0.672 22	0.626 38	0.958 24	0.552 33	0.272 55	0.777 9	0.886 22	0.696 53	0.801 25	0.674 29	0.941 14	0.858 34	0.717 34
Peng Xiang, Xin Wen, Yu-Shen Liu, Hui Zhang, Yi Fang, Zhizhong Han: Retrospective Feature Pyramid Network for Point Cloud Semantic Segmentation. ICCV 2023
EQ-Net	0.743 31	0.620 102	0.799 34	0.849 13	0.730 35	0.822 57	0.493 51	0.897 14	0.664 23	0.681 12	0.955 35	0.562 29	0.378 4	0.760 21	0.903 12	0.738 30	0.801 25	0.673 30	0.907 43	0.877 17	0.745 18
Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya JIa: A Unified Query-based Paradigm for Point Cloud Understanding. CVPR 2022
SAT	0.742 32	0.860 25	0.765 56	0.819 35	0.769 14	0.848 27	0.533 27	0.829 41	0.663 24	0.631 37	0.955 35	0.586 17	0.274 53	0.753 27	0.896 17	0.729 33	0.760 57	0.666 33	0.921 33	0.855 38	0.733 23

LRPNet	0.742 32	0.816 39	0.806 28	0.807 44	0.752 24	0.828 51	0.575 8	0.839 38	0.699 9	0.637 35	0.954 41	0.520 47	0.320 28	0.755 26	0.834 43	0.760 22	0.772 46	0.676 26	0.915 41	0.862 31	0.717 34

LargeKernel3D	0.739 34	0.909 13	0.820 12	0.806 46	0.740 32	0.852 22	0.545 21	0.826 42	0.594 58	0.643 28	0.955 35	0.541 35	0.263 63	0.723 38	0.858 32	0.775 18	0.767 50	0.678 22	0.933 23	0.848 44	0.694 43
Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia: LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs. CVPR 2023
RPN	0.736 35	0.776 52	0.790 40	0.851 11	0.754 23	0.854 18	0.491 53	0.866 26	0.596 57	0.686 9	0.955 35	0.536 37	0.342 16	0.624 57	0.869 26	0.787 11	0.802 21	0.628 46	0.927 27	0.875 21	0.704 40

MinkowskiNet	0.736 35	0.859 26	0.818 17	0.832 31	0.709 41	0.840 35	0.521 34	0.853 30	0.660 26	0.643 28	0.951 52	0.544 34	0.286 45	0.731 36	0.893 18	0.675 62	0.772 46	0.683 21	0.874 74	0.852 42	0.727 27
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
IPCA	0.731 37	0.890 18	0.837 4	0.864 4	0.726 37	0.873 5	0.530 31	0.824 44	0.489 94	0.647 25	0.978 6	0.609 5	0.336 20	0.624 57	0.733 64	0.758 23	0.776 44	0.570 72	0.949 9	0.877 17	0.728 25

MS-SFA-net	0.730 38	0.910 12	0.819 14	0.837 25	0.698 44	0.838 38	0.532 29	0.872 21	0.605 50	0.676 15	0.959 23	0.535 39	0.341 17	0.649 46	0.598 88	0.708 47	0.810 16	0.664 35	0.895 54	0.879 16	0.771 12

online3d	0.727 39	0.715 84	0.777 49	0.854 8	0.748 29	0.858 13	0.497 48	0.872 21	0.572 67	0.639 33	0.957 29	0.523 44	0.297 38	0.750 30	0.803 53	0.744 28	0.810 16	0.587 68	0.938 18	0.871 26	0.719 33

SparseConvNet	0.725 40	0.647 97	0.821 11	0.846 17	0.721 38	0.869 6	0.533 27	0.754 65	0.603 53	0.614 43	0.955 35	0.572 24	0.325 26	0.710 39	0.870 25	0.724 37	0.823 4	0.628 46	0.934 22	0.865 30	0.683 46

PointTransformer++	0.725 40	0.727 77	0.811 25	0.819 35	0.765 15	0.841 34	0.502 42	0.814 49	0.621 42	0.623 40	0.955 35	0.556 31	0.284 46	0.620 59	0.866 27	0.781 14	0.757 61	0.648 37	0.932 25	0.862 31	0.709 38

MatchingNet	0.724 42	0.812 41	0.812 23	0.810 41	0.735 34	0.834 44	0.495 50	0.860 29	0.572 67	0.602 51	0.954 41	0.512 49	0.280 49	0.757 24	0.845 41	0.725 36	0.780 41	0.606 56	0.937 19	0.851 43	0.700 42

INS-Conv-semantic	0.717 43	0.751 65	0.759 59	0.812 39	0.704 42	0.868 7	0.537 26	0.842 36	0.609 48	0.608 47	0.953 45	0.534 40	0.293 40	0.616 60	0.864 28	0.719 41	0.793 34	0.640 41	0.933 23	0.845 48	0.663 52

PointMetaBase	0.714 44	0.835 32	0.785 44	0.821 33	0.684 49	0.846 30	0.531 30	0.865 27	0.614 43	0.596 55	0.953 45	0.500 52	0.246 69	0.674 41	0.888 20	0.692 54	0.764 53	0.624 48	0.849 89	0.844 49	0.675 48

contrastBoundary	0.705 45	0.769 59	0.775 50	0.809 42	0.687 48	0.820 60	0.439 80	0.812 50	0.661 25	0.591 57	0.945 71	0.515 48	0.171 99	0.633 54	0.856 33	0.720 39	0.796 30	0.668 32	0.889 59	0.847 45	0.689 44
Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao: Contrastive Boundary Learning for Point Cloud Segmentation. CVPR2022
ClickSeg_Semantic	0.703 46	0.774 54	0.800 31	0.793 53	0.760 18	0.847 29	0.471 58	0.802 53	0.463 101	0.634 36	0.968 14	0.491 55	0.271 57	0.726 37	0.910 9	0.706 48	0.815 9	0.551 84	0.878 68	0.833 50	0.570 84

RFCR	0.702 47	0.889 19	0.745 71	0.813 38	0.672 52	0.818 64	0.493 51	0.815 48	0.623 40	0.610 45	0.947 65	0.470 64	0.249 68	0.594 64	0.848 40	0.705 49	0.779 42	0.646 38	0.892 57	0.823 56	0.611 67
Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma: Omni-Supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning. CVPR2021
One Thing One Click	0.701 48	0.825 36	0.796 35	0.723 69	0.716 39	0.832 46	0.433 82	0.816 46	0.634 37	0.609 46	0.969 12	0.418 90	0.344 14	0.559 76	0.833 44	0.715 43	0.808 19	0.560 78	0.902 48	0.847 45	0.680 47

JSENet	0.699 49	0.881 21	0.762 57	0.821 33	0.667 53	0.800 77	0.522 33	0.792 56	0.613 44	0.607 48	0.935 91	0.492 54	0.205 86	0.576 69	0.853 37	0.691 56	0.758 59	0.652 36	0.872 77	0.828 53	0.649 56
Zeyu HU, Mingmin Zhen, Xuyang BAI, Hongbo Fu, Chiew-lan Tai: JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D Point Clouds. ECCV 2020
One-Thing-One-Click	0.693 50	0.743 68	0.794 37	0.655 92	0.684 49	0.822 57	0.497 48	0.719 75	0.622 41	0.617 42	0.977 10	0.447 77	0.339 18	0.750 30	0.664 81	0.703 51	0.790 37	0.596 61	0.946 12	0.855 38	0.647 57
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
PicassoNet-II	0.692 51	0.732 73	0.772 51	0.786 54	0.677 51	0.866 9	0.517 35	0.848 32	0.509 87	0.626 38	0.952 50	0.536 37	0.225 76	0.545 82	0.704 71	0.689 59	0.810 16	0.564 77	0.903 47	0.854 40	0.729 24
Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian: Geometric feature learning for 3D meshes.
Feature_GeometricNet	0.690 52	0.884 20	0.754 63	0.795 51	0.647 60	0.818 64	0.422 84	0.802 53	0.612 45	0.604 49	0.945 71	0.462 67	0.189 94	0.563 75	0.853 37	0.726 35	0.765 52	0.632 44	0.904 45	0.821 59	0.606 71
Kangcheng Liu, Ben M. Chen: https://arxiv.org/abs/2012.09439. arXiv Preprint
FusionNet	0.688 53	0.704 86	0.741 75	0.754 66	0.656 55	0.829 49	0.501 43	0.741 70	0.609 48	0.548 65	0.950 56	0.522 46	0.371 5	0.633 54	0.756 59	0.715 43	0.771 48	0.623 49	0.861 85	0.814 62	0.658 53
Feihu Zhang, Jin Fang, Benjamin Wah, Philip Torr: Deep FusionNet for Point Cloud Semantic Segmentation. ECCV 2020
Feature-Geometry Net	0.685 54	0.866 23	0.748 68	0.819 35	0.645 62	0.794 80	0.450 70	0.802 53	0.587 60	0.604 49	0.945 71	0.464 66	0.201 89	0.554 78	0.840 42	0.723 38	0.732 72	0.602 59	0.907 43	0.822 58	0.603 74

VACNN++	0.684 55	0.728 76	0.757 62	0.776 59	0.690 45	0.804 75	0.464 63	0.816 46	0.577 66	0.587 58	0.945 71	0.508 51	0.276 52	0.671 42	0.710 69	0.663 67	0.750 65	0.589 66	0.881 65	0.832 52	0.653 55

KP-FCNN	0.684 55	0.847 29	0.758 61	0.784 56	0.647 60	0.814 67	0.473 57	0.772 59	0.605 50	0.594 56	0.935 91	0.450 75	0.181 97	0.587 65	0.805 52	0.690 57	0.785 40	0.614 52	0.882 64	0.819 60	0.632 63
H. Thomas, C. Qi, J. Deschaud, B. Marcotegui, F. Goulette, L. Guibas.: KPConv: Flexible and Deformable Convolution for Point Clouds. ICCV 2019
DGNet	0.684 55	0.712 85	0.784 45	0.782 58	0.658 54	0.835 43	0.499 47	0.823 45	0.641 34	0.597 54	0.950 56	0.487 57	0.281 48	0.575 70	0.619 85	0.647 75	0.764 53	0.620 51	0.871 80	0.846 47	0.688 45

PointContrast_LA_SEM	0.683 58	0.757 63	0.784 45	0.786 54	0.639 64	0.824 55	0.408 87	0.775 58	0.604 52	0.541 67	0.934 95	0.532 41	0.269 59	0.552 79	0.777 57	0.645 78	0.793 34	0.640 41	0.913 42	0.824 55	0.671 49

Superpoint Network	0.683 58	0.851 28	0.728 79	0.800 50	0.653 57	0.806 73	0.468 60	0.804 51	0.572 67	0.602 51	0.946 68	0.453 74	0.239 72	0.519 87	0.822 46	0.689 59	0.762 56	0.595 63	0.895 54	0.827 54	0.630 64

VI-PointConv	0.676 60	0.770 58	0.754 63	0.783 57	0.621 68	0.814 67	0.552 18	0.758 63	0.571 70	0.557 63	0.954 41	0.529 42	0.268 61	0.530 85	0.682 75	0.675 62	0.719 75	0.603 58	0.888 60	0.833 50	0.665 51
Xingyi Li, Wenxuan Wu, Xiaoli Z. Fern, Li Fuxin: The Devils in the Point Clouds: Studying the Robustness of Point Cloud Convolutions.
ROSMRF3D	0.673 61	0.789 45	0.748 68	0.763 64	0.635 66	0.814 67	0.407 89	0.747 67	0.581 64	0.573 60	0.950 56	0.484 58	0.271 57	0.607 61	0.754 60	0.649 72	0.774 45	0.596 61	0.883 63	0.823 56	0.606 71

SALANet	0.670 62	0.816 39	0.770 54	0.768 61	0.652 58	0.807 72	0.451 67	0.747 67	0.659 28	0.545 66	0.924 101	0.473 63	0.149 109	0.571 72	0.811 51	0.635 82	0.746 66	0.623 49	0.892 57	0.794 76	0.570 84

O3DSeg	0.668 63	0.822 37	0.771 53	0.496 113	0.651 59	0.833 45	0.541 23	0.761 62	0.555 76	0.611 44	0.966 15	0.489 56	0.370 6	0.388 106	0.580 89	0.776 17	0.751 63	0.570 72	0.956 7	0.817 61	0.646 58

PointConv	0.666 64	0.781 49	0.759 59	0.699 77	0.644 63	0.822 57	0.475 56	0.779 57	0.564 73	0.504 84	0.953 45	0.428 84	0.203 88	0.586 67	0.754 60	0.661 68	0.753 62	0.588 67	0.902 48	0.813 64	0.642 59
Wenxuan Wu, Zhongang Qi, Li Fuxin: PointConv: Deep Convolutional Networks on 3D Point Clouds. CVPR 2019
PointASNL	0.666 64	0.703 87	0.781 47	0.751 68	0.655 56	0.830 48	0.471 58	0.769 60	0.474 97	0.537 69	0.951 52	0.475 62	0.279 50	0.635 52	0.698 74	0.675 62	0.751 63	0.553 83	0.816 96	0.806 66	0.703 41
Xu Yan, Chaoda Zheng, Zhen Li, Sheng Wang, Shuguang Cui: PointASNL: Robust Point Clouds Processing using Nonlocal Neural Networks with Adaptive Sampling. CVPR 2020
PPCNN++	0.663 66	0.746 66	0.708 82	0.722 70	0.638 65	0.820 60	0.451 67	0.566 103	0.599 55	0.541 67	0.950 56	0.510 50	0.313 30	0.648 48	0.819 49	0.616 87	0.682 90	0.590 65	0.869 81	0.810 65	0.656 54
Pyunghwan Ahn, Juyoung Yang, Eojindl Yi, Chanho Lee, Junmo Kim: Projection-based Point Convolution for Efficient Point Cloud Segmentation. IEEE Access
MVF-GNN	0.658 67	0.558 109	0.751 66	0.655 92	0.690 45	0.722 102	0.453 66	0.867 24	0.579 65	0.576 59	0.893 113	0.523 44	0.293 40	0.733 35	0.571 91	0.692 54	0.659 97	0.606 56	0.875 71	0.804 68	0.668 50

DCM-Net	0.658 67	0.778 50	0.702 85	0.806 46	0.619 69	0.813 70	0.468 60	0.693 83	0.494 90	0.524 75	0.941 83	0.449 76	0.298 37	0.510 89	0.821 47	0.675 62	0.727 74	0.568 75	0.826 94	0.803 69	0.637 61
Jonas Schult, Francis Engelmann, Theodora Kontogianni, Bastian Leibe: DualConvMesh-Net: Joint Geodesic and Euclidean Convolutions on 3D Meshes. CVPR 2020 [Oral]
HPGCNN	0.656 69	0.698 89	0.743 73	0.650 94	0.564 86	0.820 60	0.505 41	0.758 63	0.631 38	0.479 88	0.945 71	0.480 60	0.226 74	0.572 71	0.774 58	0.690 57	0.735 70	0.614 52	0.853 88	0.776 91	0.597 77
Jisheng Dang, Qingyong Hu, Yulan Guo, Jun Yang: HPGCNN.
SAFNet-seg	0.654 70	0.752 64	0.734 77	0.664 90	0.583 81	0.815 66	0.399 91	0.754 65	0.639 35	0.535 71	0.942 81	0.470 64	0.309 32	0.665 43	0.539 93	0.650 71	0.708 80	0.635 43	0.857 87	0.793 78	0.642 59
Linqing Zhao, Jiwen Lu, Jie Zhou: Similarity-Aware Fusion Network for 3D Semantic Segmentation. IROS 2021
RandLA-Net	0.645 71	0.778 50	0.731 78	0.699 77	0.577 82	0.829 49	0.446 72	0.736 71	0.477 96	0.523 77	0.945 71	0.454 71	0.269 59	0.484 96	0.749 63	0.618 85	0.738 68	0.599 60	0.827 93	0.792 81	0.621 66

PointConv-SFPN	0.641 72	0.776 52	0.703 84	0.721 71	0.557 89	0.826 52	0.451 67	0.672 88	0.563 74	0.483 87	0.943 80	0.425 87	0.162 104	0.644 49	0.726 65	0.659 69	0.709 79	0.572 71	0.875 71	0.786 86	0.559 90

MVPNet	0.641 72	0.831 33	0.715 80	0.671 87	0.590 77	0.781 86	0.394 93	0.679 85	0.642 33	0.553 64	0.937 88	0.462 67	0.256 65	0.649 46	0.406 106	0.626 83	0.691 87	0.666 33	0.877 69	0.792 81	0.608 70
Maximilian Jaritz, Jiayuan Gu, Hao Su: Multi-view PointNet for 3D Scene Understanding. GMDL Workshop, ICCV 2019
PointMRNet	0.640 74	0.717 83	0.701 86	0.692 80	0.576 83	0.801 76	0.467 62	0.716 76	0.563 74	0.459 94	0.953 45	0.429 83	0.169 101	0.581 68	0.854 36	0.605 88	0.710 77	0.550 85	0.894 56	0.793 78	0.575 82

FPConv	0.639 75	0.785 47	0.760 58	0.713 75	0.603 72	0.798 78	0.392 95	0.534 108	0.603 53	0.524 75	0.948 63	0.457 69	0.250 67	0.538 83	0.723 67	0.598 92	0.696 85	0.614 52	0.872 77	0.799 71	0.567 87
Yiqun Lin, Zizheng Yan, Haibin Huang, Dong Du, Ligang Liu, Shuguang Cui, Xiaoguang Han: FPConv: Learning Local Flattening for Point Convolution. CVPR 2020
PD-Net	0.638 76	0.797 43	0.769 55	0.641 99	0.590 77	0.820 60	0.461 64	0.537 107	0.637 36	0.536 70	0.947 65	0.388 97	0.206 85	0.656 44	0.668 79	0.647 75	0.732 72	0.585 69	0.868 82	0.793 78	0.473 110

PointSPNet	0.637 77	0.734 72	0.692 93	0.714 74	0.576 83	0.797 79	0.446 72	0.743 69	0.598 56	0.437 99	0.942 81	0.403 93	0.150 108	0.626 56	0.800 55	0.649 72	0.697 84	0.557 81	0.846 90	0.777 90	0.563 88

SConv	0.636 78	0.830 34	0.697 89	0.752 67	0.572 85	0.780 88	0.445 74	0.716 76	0.529 80	0.530 72	0.951 52	0.446 78	0.170 100	0.507 91	0.666 80	0.636 81	0.682 90	0.541 91	0.886 61	0.799 71	0.594 78

Supervoxel-CNN	0.635 79	0.656 95	0.711 81	0.719 72	0.613 70	0.757 97	0.444 77	0.765 61	0.534 79	0.566 61	0.928 99	0.478 61	0.272 55	0.636 51	0.531 95	0.664 66	0.645 101	0.508 99	0.864 84	0.792 81	0.611 67

joint point-based	0.634 80	0.614 103	0.778 48	0.667 89	0.633 67	0.825 53	0.420 85	0.804 51	0.467 99	0.561 62	0.951 52	0.494 53	0.291 42	0.566 73	0.458 101	0.579 98	0.764 53	0.559 80	0.838 91	0.814 62	0.598 76
Hung-Yueh Chiang, Yen-Liang Lin, Yueh-Cheng Liu, Winston H. Hsu: A Unified Point-Based Framework for 3D Segmentation. 3DV 2019
PointMTL	0.632 81	0.731 74	0.688 96	0.675 84	0.591 76	0.784 85	0.444 77	0.565 104	0.610 46	0.492 85	0.949 60	0.456 70	0.254 66	0.587 65	0.706 70	0.599 91	0.665 96	0.612 55	0.868 82	0.791 84	0.579 81

PointNet2-SFPN	0.631 82	0.771 56	0.692 93	0.672 85	0.524 95	0.837 40	0.440 79	0.706 81	0.538 78	0.446 96	0.944 77	0.421 89	0.219 79	0.552 79	0.751 62	0.591 94	0.737 69	0.543 90	0.901 50	0.768 93	0.557 91

APCF-Net	0.631 82	0.742 69	0.687 98	0.672 85	0.557 89	0.792 83	0.408 87	0.665 90	0.545 77	0.508 81	0.952 50	0.428 84	0.186 95	0.634 53	0.702 72	0.620 84	0.706 81	0.555 82	0.873 75	0.798 73	0.581 80
Haojia, Lin: Adaptive Pyramid Context Fusion for Point Cloud Perception. GRSL
3DSM_DMMF	0.631 82	0.626 100	0.745 71	0.801 49	0.607 71	0.751 98	0.506 40	0.729 74	0.565 72	0.491 86	0.866 116	0.434 79	0.197 92	0.595 63	0.630 84	0.709 46	0.705 82	0.560 78	0.875 71	0.740 101	0.491 105

FusionAwareConv	0.630 85	0.604 105	0.741 75	0.766 63	0.590 77	0.747 99	0.501 43	0.734 72	0.503 89	0.527 73	0.919 105	0.454 71	0.323 27	0.550 81	0.420 105	0.678 61	0.688 88	0.544 88	0.896 53	0.795 75	0.627 65
Jiazhao Zhang, Chenyang Zhu, Lintao Zheng, Kai Xu: Fusion-Aware Point Convolution for Online Semantic 3D Scene Segmentation. CVPR 2020
DenSeR	0.628 86	0.800 42	0.625 108	0.719 72	0.545 92	0.806 73	0.445 74	0.597 98	0.448 104	0.519 79	0.938 87	0.481 59	0.328 25	0.489 95	0.499 100	0.657 70	0.759 58	0.592 64	0.881 65	0.797 74	0.634 62

SegGroup_sem	0.627 87	0.818 38	0.747 70	0.701 76	0.602 73	0.764 94	0.385 99	0.629 95	0.490 92	0.508 81	0.931 98	0.409 92	0.201 89	0.564 74	0.725 66	0.618 85	0.692 86	0.539 92	0.873 75	0.794 76	0.548 94
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
SIConv	0.625 88	0.830 34	0.694 91	0.757 65	0.563 87	0.772 92	0.448 71	0.647 93	0.520 83	0.509 80	0.949 60	0.431 82	0.191 93	0.496 93	0.614 86	0.647 75	0.672 94	0.535 95	0.876 70	0.783 87	0.571 83

dtc_net	0.625 88	0.703 87	0.751 66	0.794 52	0.535 93	0.848 27	0.480 55	0.676 87	0.528 81	0.469 91	0.944 77	0.454 71	0.004 121	0.464 98	0.636 83	0.704 50	0.758 59	0.548 87	0.924 30	0.787 85	0.492 104

Weakly-Openseg v3	0.625 88	0.924 8	0.787 43	0.620 101	0.555 91	0.811 71	0.393 94	0.666 89	0.382 112	0.520 78	0.953 45	0.250 116	0.208 83	0.604 62	0.670 77	0.644 79	0.742 67	0.538 93	0.919 36	0.803 69	0.513 102

HPEIN	0.618 91	0.729 75	0.668 99	0.647 96	0.597 75	0.766 93	0.414 86	0.680 84	0.520 83	0.525 74	0.946 68	0.432 80	0.215 81	0.493 94	0.599 87	0.638 80	0.617 106	0.570 72	0.897 52	0.806 66	0.605 73
Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi-Wing Fu, Jiaya Jia: Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation. ICCV 2019
SPH3D-GCN	0.610 92	0.858 27	0.772 51	0.489 114	0.532 94	0.792 83	0.404 90	0.643 94	0.570 71	0.507 83	0.935 91	0.414 91	0.046 118	0.510 89	0.702 72	0.602 90	0.705 82	0.549 86	0.859 86	0.773 92	0.534 97
Huan Lei, Naveed Akhtar, and Ajmal Mian: Spherical Kernel for Efficient Graph Convolution on 3D Point Clouds. TPAMI 2020
AttAN	0.609 93	0.760 61	0.667 100	0.649 95	0.521 96	0.793 81	0.457 65	0.648 92	0.528 81	0.434 101	0.947 65	0.401 94	0.153 107	0.454 99	0.721 68	0.648 74	0.717 76	0.536 94	0.904 45	0.765 94	0.485 106
Gege Zhang, Qinghua Ma, Licheng Jiao, Fang Liu and Qigong Sun: AttAN: Attention Adversarial Networks for 3D Point Cloud Semantic Segmentation. IJCAI2020
wsss-transformer	0.600 94	0.634 99	0.743 73	0.697 79	0.601 74	0.781 86	0.437 81	0.585 101	0.493 91	0.446 96	0.933 96	0.394 95	0.011 120	0.654 45	0.661 82	0.603 89	0.733 71	0.526 96	0.832 92	0.761 96	0.480 107

LAP-D	0.594 95	0.720 81	0.692 93	0.637 100	0.456 105	0.773 91	0.391 97	0.730 73	0.587 60	0.445 98	0.940 85	0.381 98	0.288 43	0.434 102	0.453 103	0.591 94	0.649 99	0.581 70	0.777 100	0.749 100	0.610 69

DPC	0.592 96	0.720 81	0.700 87	0.602 105	0.480 101	0.762 96	0.380 100	0.713 79	0.585 63	0.437 99	0.940 85	0.369 100	0.288 43	0.434 102	0.509 99	0.590 96	0.639 104	0.567 76	0.772 101	0.755 98	0.592 79
Francis Engelmann, Theodora Kontogianni, Bastian Leibe: Dilated Point Convolutions: On the Receptive Field Size of Point Convolutions on 3D Point Clouds. ICRA 2020
CCRFNet	0.589 97	0.766 60	0.659 103	0.683 82	0.470 104	0.740 101	0.387 98	0.620 97	0.490 92	0.476 89	0.922 103	0.355 103	0.245 70	0.511 88	0.511 98	0.571 99	0.643 102	0.493 103	0.872 77	0.762 95	0.600 75

ROSMRF	0.580 98	0.772 55	0.707 83	0.681 83	0.563 87	0.764 94	0.362 102	0.515 109	0.465 100	0.465 93	0.936 90	0.427 86	0.207 84	0.438 100	0.577 90	0.536 102	0.675 93	0.486 104	0.723 107	0.779 88	0.524 99

SD-DETR	0.576 99	0.746 66	0.609 112	0.445 118	0.517 97	0.643 113	0.366 101	0.714 78	0.456 102	0.468 92	0.870 115	0.432 80	0.264 62	0.558 77	0.674 76	0.586 97	0.688 88	0.482 105	0.739 105	0.733 103	0.537 96

SQN_0.1%	0.569 100	0.676 91	0.696 90	0.657 91	0.497 98	0.779 89	0.424 83	0.548 105	0.515 85	0.376 106	0.902 112	0.422 88	0.357 10	0.379 107	0.456 102	0.596 93	0.659 97	0.544 88	0.685 110	0.665 114	0.556 92

TextureNet	0.566 101	0.672 93	0.664 101	0.671 87	0.494 99	0.719 103	0.445 74	0.678 86	0.411 110	0.396 104	0.935 91	0.356 102	0.225 76	0.412 104	0.535 94	0.565 100	0.636 105	0.464 107	0.794 99	0.680 111	0.568 86
Jingwei Huang, Haotian Zhang, Li Yi, Thomas Funkerhouser, Matthias Niessner, Leonidas Guibas: TextureNet: Consistent Local Parametrizations for Learning from High-Resolution Signals on Meshes. CVPR
DVVNet	0.562 102	0.648 96	0.700 87	0.770 60	0.586 80	0.687 107	0.333 106	0.650 91	0.514 86	0.475 90	0.906 109	0.359 101	0.223 78	0.340 109	0.442 104	0.422 113	0.668 95	0.501 100	0.708 108	0.779 88	0.534 97

Pointnet++ & Feature	0.557 103	0.735 71	0.661 102	0.686 81	0.491 100	0.744 100	0.392 95	0.539 106	0.451 103	0.375 107	0.946 68	0.376 99	0.205 86	0.403 105	0.356 109	0.553 101	0.643 102	0.497 101	0.824 95	0.756 97	0.515 100

GMLPs	0.538 104	0.495 114	0.693 92	0.647 96	0.471 103	0.793 81	0.300 109	0.477 110	0.505 88	0.358 108	0.903 111	0.327 106	0.081 115	0.472 97	0.529 96	0.448 111	0.710 77	0.509 97	0.746 103	0.737 102	0.554 93

PanopticFusion-label	0.529 105	0.491 115	0.688 96	0.604 104	0.386 110	0.632 114	0.225 120	0.705 82	0.434 107	0.293 114	0.815 118	0.348 104	0.241 71	0.499 92	0.669 78	0.507 104	0.649 99	0.442 113	0.796 98	0.602 118	0.561 89
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
subcloud_weak	0.516 106	0.676 91	0.591 115	0.609 102	0.442 106	0.774 90	0.335 105	0.597 98	0.422 109	0.357 109	0.932 97	0.341 105	0.094 114	0.298 111	0.528 97	0.473 109	0.676 92	0.495 102	0.602 116	0.721 106	0.349 118

Online SegFusion	0.515 107	0.607 104	0.644 106	0.579 107	0.434 107	0.630 115	0.353 103	0.628 96	0.440 105	0.410 102	0.762 121	0.307 108	0.167 102	0.520 86	0.403 107	0.516 103	0.565 109	0.447 111	0.678 111	0.701 108	0.514 101
Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstroem, Cristian Sminchisescu, Luc van Gool: A Real-Time Learning Framework for Joint 3D Reconstruction and Semantic Segmentation. Robotics and Automation Letters Submission
3DMV, FTSDF	0.501 108	0.558 109	0.608 113	0.424 120	0.478 102	0.690 106	0.246 116	0.586 100	0.468 98	0.450 95	0.911 107	0.394 95	0.160 105	0.438 100	0.212 116	0.432 112	0.541 114	0.475 106	0.742 104	0.727 104	0.477 108

PCNN	0.498 109	0.559 108	0.644 106	0.560 109	0.420 109	0.711 105	0.229 118	0.414 111	0.436 106	0.352 110	0.941 83	0.324 107	0.155 106	0.238 116	0.387 108	0.493 105	0.529 115	0.509 97	0.813 97	0.751 99	0.504 103

3DMV	0.484 110	0.484 116	0.538 118	0.643 98	0.424 108	0.606 118	0.310 107	0.574 102	0.433 108	0.378 105	0.796 119	0.301 109	0.214 82	0.537 84	0.208 117	0.472 110	0.507 118	0.413 116	0.693 109	0.602 118	0.539 95
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
PointCNN with RGB	0.458 111	0.577 107	0.611 111	0.356 122	0.321 118	0.715 104	0.299 111	0.376 115	0.328 118	0.319 112	0.944 77	0.285 111	0.164 103	0.216 119	0.229 114	0.484 107	0.545 113	0.456 109	0.755 102	0.709 107	0.475 109
Yangyan Li, Rui Bu, Mingchao Sun, Baoquan Chen: PointCNN. NeurIPS 2018
FCPN	0.447 112	0.679 90	0.604 114	0.578 108	0.380 111	0.682 108	0.291 112	0.106 122	0.483 95	0.258 120	0.920 104	0.258 115	0.025 119	0.231 118	0.325 110	0.480 108	0.560 111	0.463 108	0.725 106	0.666 113	0.231 122
Dario Rethage, Johanna Wald, Jürgen Sturm, Nassir Navab, Federico Tombari: Fully-Convolutional Point Networks for Large-Scale Point Clouds. ECCV 2018
DGCNN_reproduce	0.446 113	0.474 117	0.623 109	0.463 116	0.366 113	0.651 111	0.310 107	0.389 114	0.349 116	0.330 111	0.937 88	0.271 113	0.126 111	0.285 112	0.224 115	0.350 118	0.577 108	0.445 112	0.625 114	0.723 105	0.394 114
Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E. Sarma, Michael M. Bronstein, Justin M. Solomon: Dynamic Graph CNN for Learning on Point Clouds. TOG 2019
PNET2	0.442 114	0.548 111	0.548 117	0.597 106	0.363 114	0.628 116	0.300 109	0.292 117	0.374 113	0.307 113	0.881 114	0.268 114	0.186 95	0.238 116	0.204 118	0.407 114	0.506 119	0.449 110	0.667 112	0.620 117	0.462 112

SurfaceConvPF	0.442 114	0.505 113	0.622 110	0.380 121	0.342 116	0.654 110	0.227 119	0.397 113	0.367 114	0.276 116	0.924 101	0.240 117	0.198 91	0.359 108	0.262 112	0.366 115	0.581 107	0.435 114	0.640 113	0.668 112	0.398 113
Hao Pan, Shilin Liu, Yang Liu, Xin Tong: Convolutional Neural Networks on 3D Surfaces Using Parallel Frames.
Tangent Convolutions	0.438 116	0.437 119	0.646 105	0.474 115	0.369 112	0.645 112	0.353 103	0.258 119	0.282 121	0.279 115	0.918 106	0.298 110	0.147 110	0.283 113	0.294 111	0.487 106	0.562 110	0.427 115	0.619 115	0.633 116	0.352 117
Maxim Tatarchenko, Jaesik Park, Vladlen Koltun, Qian-Yi Zhou: Tangent convolutions for dense prediction in 3d. CVPR 2018
3DWSSS	0.425 117	0.525 112	0.647 104	0.522 110	0.324 117	0.488 122	0.077 123	0.712 80	0.353 115	0.401 103	0.636 123	0.281 112	0.176 98	0.340 109	0.565 92	0.175 122	0.551 112	0.398 117	0.370 123	0.602 118	0.361 116

SPLAT Net	0.393 118	0.472 118	0.511 119	0.606 103	0.311 119	0.656 109	0.245 117	0.405 112	0.328 118	0.197 121	0.927 100	0.227 119	0.000 123	0.001 124	0.249 113	0.271 121	0.510 116	0.383 119	0.593 117	0.699 109	0.267 120
Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz: SPLATNet: Sparse Lattice Networks for Point Cloud Processing. CVPR 2018
ScanNet+FTSDF	0.383 119	0.297 121	0.491 120	0.432 119	0.358 115	0.612 117	0.274 114	0.116 121	0.411 110	0.265 117	0.904 110	0.229 118	0.079 116	0.250 114	0.185 119	0.320 119	0.510 116	0.385 118	0.548 118	0.597 121	0.394 114

PointNet++	0.339 120	0.584 106	0.478 121	0.458 117	0.256 121	0.360 123	0.250 115	0.247 120	0.278 122	0.261 119	0.677 122	0.183 120	0.117 112	0.212 120	0.145 121	0.364 116	0.346 123	0.232 123	0.548 118	0.523 122	0.252 121
Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas: pointnet++: deep hierarchical feature learning on point sets in a metric space.
GrowSP++	0.323 121	0.114 123	0.589 116	0.499 112	0.147 123	0.555 119	0.290 113	0.336 116	0.290 120	0.262 118	0.865 117	0.102 123	0.000 123	0.037 122	0.000 124	0.000 124	0.462 120	0.381 120	0.389 122	0.664 115	0.473 110

SSC-UNet	0.308 122	0.353 120	0.290 123	0.278 123	0.166 122	0.553 120	0.169 122	0.286 118	0.147 123	0.148 123	0.908 108	0.182 121	0.064 117	0.023 123	0.018 123	0.354 117	0.363 121	0.345 121	0.546 120	0.685 110	0.278 119

ScanNet	0.306 123	0.203 122	0.366 122	0.501 111	0.311 119	0.524 121	0.211 121	0.002 124	0.342 117	0.189 122	0.786 120	0.145 122	0.102 113	0.245 115	0.152 120	0.318 120	0.348 122	0.300 122	0.460 121	0.437 123	0.182 123
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17
ERROR	0.054 124	0.000 124	0.041 124	0.172 124	0.030 124	0.062 124	0.001 124	0.035 123	0.004 124	0.051 124	0.143 124	0.019 124	0.003 122	0.041 121	0.050 122	0.003 123	0.054 124	0.018 124	0.005 124	0.264 124	0.082 124

This table lists the benchmark results for the 3D semantic instance scenario.

Method	avg ap 25%	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

PointRel	0.901 1	1.000 1	0.978 25	0.928 3	0.879 1	0.962 6	0.882 5	0.749 40	0.947 3	0.912 2	0.802 3	0.753 21	0.820 2	1.000 1	0.984 4	0.919 6	0.894 4	1.000 1	0.815 17
: Relation3D: Enhancing Relation Modeling for Point Cloud Instance Segmentation. CVPR 2025
PointComp	0.897 2	1.000 1	0.998 6	0.864 20	0.869 3	0.969 3	0.830 8	0.783 33	0.905 15	0.894 10	0.791 4	0.834 1	0.769 14	1.000 1	0.982 5	0.920 5	0.868 20	1.000 1	0.872 2

OneFormer3D	0.896 3	1.000 1	1.000 1	0.913 6	0.858 7	0.951 12	0.786 17	0.837 20	0.916 13	0.908 4	0.778 9	0.803 7	0.750 16	1.000 1	0.976 7	0.926 4	0.882 8	0.995 50	0.849 3
Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: OneFormer3D: One Transformer for Unified Point Cloud Segmentation.
Competitor-MAFT	0.896 3	1.000 1	1.000 1	0.872 17	0.847 12	0.967 4	0.955 1	0.778 35	0.901 17	0.919 1	0.784 6	0.812 2	0.770 13	1.000 1	0.949 10	0.865 37	0.868 19	1.000 1	0.840 6

MG-Former	0.887 5	1.000 1	0.991 15	0.837 28	0.801 27	0.935 21	0.887 4	0.857 12	0.946 4	0.891 12	0.748 20	0.805 6	0.739 18	1.000 1	0.993 2	0.809 61	0.876 15	1.000 1	0.842 5

DCD	0.885 6	1.000 1	0.933 43	0.856 24	0.832 16	0.959 8	0.930 2	0.858 11	0.802 40	0.859 20	0.767 10	0.796 11	0.709 22	1.000 1	0.971 8	0.871 31	0.904 2	1.000 1	0.874 1

UniPerception	0.884 7	1.000 1	0.979 22	0.872 17	0.869 4	0.892 30	0.806 14	0.890 7	0.835 31	0.892 11	0.755 16	0.811 3	0.779 10	0.955 51	0.951 9	0.876 25	0.914 1	0.997 42	0.840 7

KmaxOneFormerNet	0.883 8	1.000 1	1.000 1	0.798 43	0.848 11	0.971 1	0.853 7	0.903 3	0.827 34	0.910 3	0.748 19	0.809 5	0.724 20	1.000 1	0.980 6	0.855 43	0.844 26	1.000 1	0.832 8

InsSSM	0.883 8	1.000 1	0.996 7	0.800 42	0.865 5	0.960 7	0.808 13	0.852 17	0.940 7	0.899 9	0.785 5	0.810 4	0.700 24	1.000 1	0.912 22	0.851 46	0.895 3	0.997 42	0.827 10
Lei Yao, Yi Wang, Moyun Liu, Lap-Pui Chau: SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation. TCSVT, 2024
Competitor-SPFormer	0.881 10	1.000 1	1.000 1	0.845 26	0.854 8	0.962 5	0.714 25	0.857 13	0.904 16	0.902 7	0.782 8	0.789 14	0.662 30	1.000 1	0.988 3	0.874 28	0.886 7	0.997 42	0.847 4

VDG-Uni3DSeg	0.880 11	1.000 1	0.990 17	0.889 10	0.823 20	0.952 11	0.764 19	0.893 6	0.941 6	0.907 5	0.756 15	0.781 16	0.628 48	1.000 1	0.918 21	0.903 9	0.872 18	0.999 40	0.821 14

TST3D	0.879 12	1.000 1	0.994 10	0.921 5	0.807 26	0.939 18	0.771 18	0.887 8	0.923 11	0.862 19	0.722 25	0.768 18	0.756 15	1.000 1	0.910 33	0.904 8	0.836 29	0.999 40	0.824 12
Duc Tran Dang Trung, Byeongkeun Kang, Yeejin Lee: MSTA3D: Multi-scale Twin-attention for 3D Instance Segmentation. ACM Multimedia 2024
SIM3D	0.878 13	1.000 1	0.972 27	0.863 21	0.817 24	0.952 10	0.821 11	0.783 31	0.890 20	0.902 8	0.735 23	0.797 9	0.799 9	1.000 1	0.931 18	0.893 15	0.853 24	1.000 1	0.792 20

EV3D	0.877 14	1.000 1	0.996 9	0.873 15	0.854 9	0.950 13	0.691 29	0.783 32	0.926 8	0.889 15	0.754 17	0.794 13	0.820 2	1.000 1	0.912 22	0.900 11	0.860 22	1.000 1	0.779 23

TD3D	0.875 15	1.000 1	0.976 26	0.877 13	0.783 33	0.970 2	0.889 3	0.828 21	0.945 5	0.803 26	0.713 27	0.720 28	0.709 21	1.000 1	0.936 16	0.934 3	0.873 16	1.000 1	0.791 21
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
Spherical Mask(CtoF)	0.875 15	1.000 1	0.991 16	0.873 15	0.850 10	0.946 15	0.691 29	0.752 39	0.926 8	0.889 14	0.759 13	0.794 12	0.820 2	1.000 1	0.912 22	0.900 11	0.878 12	1.000 1	0.769 25

SoftGroup++	0.874 17	1.000 1	0.972 28	0.947 1	0.839 15	0.898 29	0.556 44	0.913 2	0.881 23	0.756 28	0.828 2	0.748 23	0.821 1	1.000 1	0.937 15	0.937 1	0.887 6	1.000 1	0.821 13

Queryformer	0.874 17	1.000 1	0.978 24	0.809 40	0.876 2	0.936 20	0.702 26	0.716 45	0.920 12	0.875 18	0.766 11	0.772 17	0.818 6	1.000 1	0.995 1	0.916 7	0.892 5	1.000 1	0.767 26

Mask3D	0.870 19	1.000 1	0.985 19	0.782 50	0.818 23	0.938 19	0.760 20	0.749 40	0.923 10	0.877 17	0.760 12	0.785 15	0.820 2	1.000 1	0.912 22	0.864 39	0.878 12	0.983 56	0.825 11
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
ExtMask3D	0.867 20	1.000 1	1.000 1	0.756 57	0.816 25	0.940 17	0.795 15	0.760 38	0.862 25	0.888 16	0.739 21	0.763 19	0.774 11	1.000 1	0.929 19	0.878 24	0.879 10	1.000 1	0.819 16

SoftGroup	0.865 21	1.000 1	0.969 29	0.860 22	0.860 6	0.913 25	0.558 41	0.899 4	0.911 14	0.760 27	0.828 1	0.736 25	0.802 8	0.981 48	0.919 20	0.875 26	0.877 14	1.000 1	0.820 15
Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo: SoftGroup for 3D Instance Segmentaiton on Point Clouds. CVPR 2022 [Oral]
MAFT	0.860 22	1.000 1	0.990 17	0.810 39	0.829 17	0.949 14	0.809 12	0.688 51	0.836 30	0.904 6	0.751 18	0.796 10	0.741 17	1.000 1	0.864 43	0.848 48	0.837 27	1.000 1	0.828 9

IPCA-Inst	0.851 23	1.000 1	0.968 30	0.884 12	0.842 14	0.862 43	0.693 28	0.812 26	0.888 22	0.677 40	0.783 7	0.698 29	0.807 7	1.000 1	0.911 30	0.865 38	0.865 21	1.000 1	0.757 29

SPFormer	0.851 23	1.000 1	0.994 11	0.806 41	0.774 35	0.942 16	0.637 33	0.849 18	0.859 27	0.889 13	0.720 26	0.730 26	0.665 29	1.000 1	0.911 30	0.868 36	0.873 17	1.000 1	0.796 19
Sun Jiahao, Qing Chunmei, Tan Junpeng, Xu Xiangmin: Superpoint Transformer for 3D Scene Instance Segmentation. AAAI 2023 [Oral]
ODIN - Ins	0.847 25	1.000 1	0.951 36	0.834 33	0.828 18	0.875 35	0.871 6	0.767 36	0.821 36	0.816 23	0.690 34	0.800 8	0.771 12	1.000 1	0.912 22	0.891 16	0.821 30	0.886 72	0.713 36
Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki: ODIN: A Single Model for 2D and 3D Segmentation. CVPR 2024
Mask3D_evaluation	0.843 26	1.000 1	0.955 35	0.847 25	0.795 29	0.932 22	0.750 22	0.780 34	0.891 19	0.818 22	0.737 22	0.633 38	0.703 23	1.000 1	0.902 35	0.870 32	0.820 31	0.941 64	0.805 18

SphereSeg	0.835 27	1.000 1	0.963 33	0.891 9	0.794 30	0.954 9	0.822 10	0.710 46	0.961 2	0.721 32	0.693 33	0.530 51	0.653 32	1.000 1	0.867 42	0.857 42	0.859 23	0.991 53	0.771 24

ISBNet	0.835 27	1.000 1	0.950 37	0.731 59	0.819 21	0.918 23	0.790 16	0.740 42	0.851 29	0.831 21	0.661 36	0.742 24	0.650 33	1.000 1	0.937 14	0.814 60	0.836 28	1.000 1	0.765 27
Tuan Duc Ngo, Binh-Son Hua, Khoi Nguyen: ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution. CVPR 2023
TopoSeg	0.832 29	1.000 1	0.981 21	0.933 2	0.819 22	0.826 52	0.524 50	0.841 19	0.811 37	0.681 39	0.759 14	0.687 30	0.727 19	0.981 48	0.911 30	0.883 20	0.853 25	1.000 1	0.756 30

GraphCut	0.832 29	1.000 1	0.922 52	0.724 61	0.798 28	0.902 28	0.701 27	0.856 15	0.859 26	0.715 33	0.706 28	0.748 22	0.640 44	1.000 1	0.934 17	0.862 40	0.880 9	1.000 1	0.729 32

PBNet	0.825 31	1.000 1	0.963 32	0.837 30	0.843 13	0.865 38	0.822 9	0.647 54	0.878 24	0.733 30	0.639 43	0.683 31	0.650 33	1.000 1	0.853 44	0.870 33	0.820 32	1.000 1	0.744 31
Weiguang Zhao, Yuyao Yan, Chaolong Yang, Jianan Ye, Xi Yang, Kaizhu Huang: Divide and Conquer: 3D Instance Segmentation With Point-Wise Binarization. ICCV 2023
SSEC	0.820 32	1.000 1	0.983 20	0.924 4	0.826 19	0.817 55	0.415 59	0.899 5	0.793 42	0.673 41	0.731 24	0.636 36	0.653 31	1.000 1	0.939 13	0.804 63	0.878 11	1.000 1	0.780 22

DKNet	0.815 33	1.000 1	0.930 44	0.844 27	0.765 39	0.915 24	0.534 48	0.805 28	0.805 39	0.807 25	0.654 37	0.763 20	0.650 33	1.000 1	0.794 56	0.881 21	0.766 36	1.000 1	0.758 28
Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong: 3D Instances as 1D Kernels. ECCV 2022
RPGN	0.806 34	1.000 1	0.992 13	0.789 45	0.723 52	0.891 31	0.650 32	0.810 27	0.832 32	0.665 43	0.699 31	0.658 32	0.700 24	1.000 1	0.881 37	0.832 52	0.774 34	0.997 42	0.613 53
Shichao Dong, Guosheng Lin, Tzu-Yi Hung: Learning Regional Purity for Instance Segmentation on 3D Point Clouds. ECCV 2022
Box2Mask	0.803 35	1.000 1	0.962 34	0.874 14	0.707 56	0.887 34	0.686 31	0.598 59	0.961 1	0.715 34	0.694 32	0.469 56	0.700 24	1.000 1	0.912 22	0.902 10	0.753 41	0.997 42	0.637 47
Julian Chibane, Francis Engelmann, Tuan Anh Tran, Gerard Pons-Moll: Box2Mask: Weakly Supervised 3D Semantic Instance Segmentation Using Bounding Boxes. ECCV 2022
HAIS	0.803 35	1.000 1	0.994 11	0.820 35	0.759 40	0.855 44	0.554 45	0.882 9	0.827 35	0.615 49	0.676 35	0.638 35	0.646 42	1.000 1	0.912 22	0.797 66	0.767 35	0.994 51	0.726 33
Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang: Hierarchical Aggregation for 3D Instance Segmentation. ICCV 2021
Mask-Group	0.792 37	1.000 1	0.968 31	0.812 36	0.766 38	0.864 39	0.460 53	0.815 25	0.888 21	0.598 53	0.651 40	0.639 34	0.600 51	0.918 54	0.941 11	0.896 14	0.721 48	1.000 1	0.723 34
Min Zhong, Xinghao Chen, Xiaokang Chen, Gang Zeng, Yunhe Wang: MaskGroup: Hierarchical Point Grouping and Masking for 3D Instance Segmentation. ICME 2022
CSC-Pretrained	0.791 38	1.000 1	0.996 7	0.829 34	0.767 37	0.889 33	0.600 36	0.819 24	0.770 47	0.594 54	0.620 47	0.541 48	0.700 24	1.000 1	0.941 11	0.889 18	0.763 37	1.000 1	0.526 63

SSTNet	0.789 39	1.000 1	0.840 66	0.888 11	0.717 53	0.835 48	0.717 24	0.684 52	0.627 62	0.724 31	0.652 39	0.727 27	0.600 51	1.000 1	0.912 22	0.822 55	0.757 40	1.000 1	0.691 41
Zhihao Liang, Zhihao Li, Songcen Xu, Mingkui Tan, Kui Jia: Instance Segmentation in 3D Scenes using Semantic Superpoint Tree Networks. ICCV2021
GICN	0.788 40	1.000 1	0.978 23	0.867 19	0.781 34	0.833 49	0.527 49	0.824 22	0.806 38	0.549 62	0.596 50	0.551 44	0.700 24	1.000 1	0.853 44	0.935 2	0.733 45	1.000 1	0.651 44

DENet	0.786 41	1.000 1	0.929 45	0.736 58	0.750 46	0.720 68	0.755 21	0.934 1	0.794 41	0.590 55	0.561 56	0.537 49	0.650 33	1.000 1	0.882 36	0.804 64	0.789 33	1.000 1	0.719 35

DANCENET	0.786 41	1.000 1	0.936 40	0.783 48	0.737 49	0.852 46	0.742 23	0.647 54	0.765 49	0.811 24	0.624 46	0.579 41	0.632 47	1.000 1	0.909 34	0.898 13	0.696 53	0.944 60	0.601 56

DualGroup	0.782 43	1.000 1	0.927 46	0.811 37	0.772 36	0.853 45	0.631 35	0.805 28	0.773 44	0.613 50	0.611 48	0.610 39	0.650 33	0.835 65	0.881 37	0.879 23	0.750 43	1.000 1	0.675 42

PointGroup	0.778 44	1.000 1	0.900 56	0.798 44	0.715 54	0.863 40	0.493 51	0.706 47	0.895 18	0.569 60	0.701 29	0.576 42	0.639 45	1.000 1	0.880 39	0.851 45	0.719 49	0.997 42	0.709 38
Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia: PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation. CVPR 2020 [oral]
PE	0.776 45	1.000 1	0.900 57	0.860 22	0.728 51	0.869 36	0.400 60	0.857 14	0.774 43	0.568 61	0.701 30	0.602 40	0.646 42	0.933 53	0.843 47	0.890 17	0.691 57	0.997 42	0.709 37
Biao Zhang, Peter Wonka: Point Cloud Instance Segmentation using Probabilistic Embeddings. CVPR 2021
AOIA	0.767 46	1.000 1	0.937 39	0.810 38	0.740 48	0.906 26	0.550 46	0.800 30	0.706 54	0.577 59	0.624 45	0.544 47	0.596 56	0.857 57	0.879 41	0.880 22	0.750 42	0.992 52	0.658 43

DD-UNet+Group	0.764 47	1.000 1	0.897 59	0.837 29	0.753 43	0.830 51	0.459 55	0.824 22	0.699 56	0.629 47	0.653 38	0.438 59	0.650 33	1.000 1	0.880 39	0.858 41	0.690 58	1.000 1	0.650 45
H. Liu, R. Liu, K. Yang, J. Zhang, K. Peng, R. Stiefelhagen: HIDA: Towards Holistic Indoor Understanding for the Visually Impaired via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor. ICCVW 2021
INS-Conv-instance	0.762 48	1.000 1	0.923 49	0.765 53	0.785 32	0.905 27	0.600 36	0.655 53	0.646 61	0.683 38	0.647 41	0.530 50	0.650 33	1.000 1	0.824 49	0.830 53	0.693 56	0.944 60	0.644 46

Dyco3D	0.761 49	1.000 1	0.935 41	0.893 8	0.752 45	0.863 41	0.600 36	0.588 60	0.742 51	0.641 45	0.633 44	0.546 46	0.550 58	0.857 57	0.789 58	0.853 44	0.762 38	0.987 54	0.699 39
Tong He; Chunhua Shen; Anton van den Hengel: DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution. CVPR2021
OccuSeg+instance	0.742 50	1.000 1	0.923 49	0.785 46	0.745 47	0.867 37	0.557 42	0.578 63	0.729 52	0.670 42	0.644 42	0.488 54	0.577 57	1.000 1	0.794 56	0.830 53	0.620 66	1.000 1	0.550 59
Lei Han, Tian Zheng, Lan Xu, Lu Fang: OccuSeg: Occupancy-aware 3D Instance Segmentation. CVPR2020
RWSeg	0.739 51	1.000 1	0.899 58	0.759 55	0.753 44	0.823 53	0.282 65	0.691 50	0.658 59	0.582 58	0.594 51	0.547 45	0.628 48	1.000 1	0.795 55	0.868 35	0.728 47	1.000 1	0.692 40

3D-MPA	0.737 52	1.000 1	0.933 42	0.785 46	0.794 31	0.831 50	0.279 67	0.588 60	0.695 57	0.616 48	0.559 57	0.556 43	0.650 33	1.000 1	0.809 53	0.875 27	0.696 54	1.000 1	0.608 55
Francis Engelmann, Martin Bokeloh, Alireza Fathi, Bastian Leibe, Matthias Nießner: 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation. CVPR 2020
MTML	0.731 53	1.000 1	0.992 13	0.779 52	0.609 65	0.746 63	0.308 64	0.867 10	0.601 65	0.607 51	0.539 60	0.519 52	0.550 58	1.000 1	0.824 49	0.869 34	0.729 46	1.000 1	0.616 51
Jean Lahoud, Bernard Ghanem, Marc Pollefeys, Martin R. Oswald: 3D Instance Segmentation via Multi-task Metric Learning. ICCV 2019 [oral]
OSIS	0.725 54	1.000 1	0.885 62	0.653 67	0.657 62	0.801 56	0.576 40	0.695 49	0.828 33	0.698 36	0.534 61	0.457 58	0.500 65	0.857 57	0.831 48	0.841 50	0.627 64	1.000 1	0.619 50

SSEN	0.724 55	1.000 1	0.926 47	0.781 51	0.661 60	0.845 47	0.596 39	0.529 66	0.764 50	0.653 44	0.489 67	0.461 57	0.500 65	0.859 56	0.765 59	0.872 30	0.761 39	1.000 1	0.577 57
Dongsu Zhang, Junha Chun, Sang Kyun Cha, Young Min Kim: Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with Deep Metric Learning. Arxiv
NeuralBF	0.718 56	1.000 1	0.945 38	0.901 7	0.754 42	0.817 54	0.460 53	0.700 48	0.772 45	0.688 37	0.568 55	0.000 78	0.500 65	0.981 48	0.606 69	0.872 29	0.740 44	1.000 1	0.614 52
Weiwei Sun, Daniel Rebain, Renjie Liao, Vladimir Tankovich, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi: NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation on Point Clouds. WACV 2023
Sparse R-CNN	0.714 57	1.000 1	0.926 48	0.694 62	0.699 58	0.890 32	0.636 34	0.516 67	0.693 58	0.743 29	0.588 52	0.369 63	0.601 50	0.594 71	0.800 54	0.886 19	0.676 59	0.986 55	0.546 60

SALoss-ResNet	0.695 58	1.000 1	0.855 64	0.579 72	0.589 67	0.735 66	0.484 52	0.588 60	0.856 28	0.634 46	0.571 54	0.298 64	0.500 65	1.000 1	0.824 49	0.818 56	0.702 52	0.935 67	0.545 61
Zhidong Liang, Ming Yang, Hao Li, Chunxiang Wang: 3D Instance Embedding Learning With a Structure-Aware Loss Function for Point Cloud Segmentation. IEEE Robotics and Automation Letters (IROS2020)
PanopticFusion-inst	0.693 59	1.000 1	0.852 65	0.655 66	0.616 64	0.788 58	0.334 62	0.763 37	0.771 46	0.457 72	0.555 58	0.652 33	0.518 62	0.857 57	0.765 59	0.732 72	0.631 62	0.944 60	0.577 58
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
Occipital-SCS	0.688 60	1.000 1	0.913 53	0.730 60	0.737 50	0.743 65	0.442 56	0.855 16	0.655 60	0.546 63	0.546 59	0.263 66	0.508 64	0.889 55	0.568 70	0.771 69	0.705 51	0.889 70	0.625 49

3D-BoNet	0.687 61	1.000 1	0.887 61	0.836 31	0.587 68	0.643 75	0.550 46	0.620 56	0.724 53	0.522 67	0.501 65	0.243 67	0.512 63	1.000 1	0.751 61	0.807 62	0.661 61	0.909 69	0.612 54
Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen Wang, Andrew Markham, Niki Trigoni: Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds. NeurIPS 2019 Spotlight
ClickSeg_Instance	0.685 62	1.000 1	0.818 68	0.600 70	0.715 55	0.795 57	0.557 42	0.533 65	0.591 67	0.601 52	0.519 63	0.429 61	0.638 46	0.938 52	0.706 64	0.817 58	0.624 65	0.944 60	0.502 65

PCJC	0.684 63	1.000 1	0.895 60	0.757 56	0.659 61	0.862 42	0.189 74	0.739 43	0.606 64	0.712 35	0.581 53	0.515 53	0.650 33	0.857 57	0.357 75	0.785 67	0.631 63	0.889 70	0.635 48

SPG_WSIS	0.678 64	1.000 1	0.880 63	0.836 31	0.701 57	0.727 67	0.273 69	0.607 58	0.706 55	0.541 65	0.515 64	0.174 70	0.600 51	0.857 57	0.716 63	0.846 49	0.711 50	1.000 1	0.506 64

One_Thing_One_Click	0.675 65	1.000 1	0.823 67	0.782 49	0.621 63	0.766 60	0.211 71	0.736 44	0.560 69	0.586 56	0.522 62	0.636 37	0.453 69	0.641 69	0.853 44	0.850 47	0.694 55	0.997 42	0.411 70
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
SegGroup_ins	0.637 66	1.000 1	0.923 51	0.593 71	0.561 69	0.746 64	0.143 76	0.504 68	0.766 48	0.485 70	0.442 68	0.372 62	0.530 61	0.714 66	0.815 52	0.775 68	0.673 60	1.000 1	0.431 69
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
MASC	0.615 67	0.711 74	0.802 69	0.540 73	0.757 41	0.777 59	0.029 77	0.577 64	0.588 68	0.521 68	0.600 49	0.436 60	0.534 60	0.697 67	0.616 68	0.838 51	0.526 68	0.980 57	0.534 62
Chen Liu, Yasutaka Furukawa: MASC: Multi-scale Affinity with Sparse Convolution for 3D Instance Segmentation.
UNet-backbone	0.605 68	1.000 1	0.909 54	0.764 54	0.603 66	0.704 69	0.415 58	0.301 73	0.548 70	0.461 71	0.394 69	0.267 65	0.386 71	0.857 57	0.649 67	0.817 57	0.504 70	0.959 58	0.356 73

3D-SIS	0.558 69	1.000 1	0.773 70	0.614 69	0.503 72	0.691 71	0.200 72	0.412 69	0.498 73	0.546 64	0.311 74	0.103 74	0.600 51	0.857 57	0.382 72	0.799 65	0.445 76	0.938 66	0.371 71
Ji Hou, Angela Dai, Matthias Niessner: 3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. CVPR 2019
R-PointNet	0.544 70	0.500 77	0.655 76	0.661 65	0.663 59	0.765 61	0.432 57	0.214 76	0.612 63	0.584 57	0.499 66	0.204 69	0.286 75	0.429 74	0.655 66	0.650 77	0.539 67	0.950 59	0.499 66

Hier3D	0.540 71	1.000 1	0.727 71	0.626 68	0.467 75	0.693 70	0.200 72	0.412 69	0.480 74	0.528 66	0.318 73	0.077 77	0.600 51	0.688 68	0.382 72	0.768 70	0.472 72	0.941 64	0.350 74
Tan: HCFS3D: Hierarchical Coupled Feature Selection Network for 3D Semantic and Instance Segmentation.
Region-18class	0.497 72	0.250 79	0.902 55	0.689 63	0.540 70	0.747 62	0.276 68	0.610 57	0.268 78	0.489 69	0.348 70	0.000 78	0.243 78	0.220 77	0.663 65	0.814 59	0.459 74	0.928 68	0.496 67

Sem_Recon_ins	0.484 73	0.764 73	0.608 78	0.470 75	0.521 71	0.637 76	0.311 63	0.218 75	0.348 77	0.365 76	0.223 75	0.222 68	0.258 76	0.629 70	0.734 62	0.596 78	0.509 69	0.858 74	0.444 68

tmp	0.474 74	1.000 1	0.727 71	0.433 77	0.481 74	0.673 73	0.022 79	0.380 71	0.517 72	0.436 74	0.338 72	0.128 72	0.343 73	0.429 74	0.291 77	0.728 73	0.473 71	0.833 75	0.300 76

SemRegionNet-20cls	0.470 75	1.000 1	0.727 71	0.447 76	0.481 73	0.678 72	0.024 78	0.380 71	0.518 71	0.440 73	0.339 71	0.128 72	0.350 72	0.429 74	0.212 78	0.711 74	0.465 73	0.833 75	0.290 77

ASIS	0.422 76	0.333 78	0.707 74	0.676 64	0.401 76	0.650 74	0.350 61	0.177 77	0.594 66	0.376 75	0.202 76	0.077 76	0.404 70	0.571 72	0.197 79	0.674 76	0.447 75	0.500 78	0.260 78

3D-BEVIS	0.401 77	0.667 75	0.687 75	0.419 78	0.137 79	0.587 77	0.188 75	0.235 74	0.359 76	0.211 78	0.093 79	0.080 75	0.311 74	0.571 72	0.382 72	0.754 71	0.300 78	0.874 73	0.357 72
Cathrin Elich, Francis Engelmann, Jonas Schult, Theodora Kontogianni, Bastian Leibe: 3D-BEVIS: Birds-Eye-View Instance Segmentation.
Sgpn_scannet	0.390 78	0.556 76	0.636 77	0.493 74	0.353 77	0.539 78	0.271 70	0.160 78	0.450 75	0.359 77	0.178 77	0.146 71	0.250 77	0.143 78	0.347 76	0.698 75	0.436 77	0.667 77	0.331 75

MaskRCNN 2d->3d Proj	0.261 79	0.903 72	0.081 79	0.008 79	0.233 78	0.175 79	0.280 66	0.106 79	0.150 79	0.203 79	0.175 78	0.480 55	0.218 79	0.143 78	0.542 71	0.404 79	0.153 79	0.393 79	0.049 79

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

Virtual MVFusion (R)	0.745 1	0.861 1	0.839 1	0.881 1	0.672 2	0.512 1	0.422 19	0.898 1	0.723 1	0.714 1	0.954 2	0.454 1	0.509 1	0.773 1	0.895 1	0.756 1	0.820 1	0.653 1	0.935 1	0.891 1	0.728 1
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
BPNet_2D	0.670 2	0.822 3	0.795 3	0.836 2	0.659 3	0.481 2	0.451 15	0.769 5	0.656 3	0.567 4	0.931 3	0.395 6	0.390 6	0.700 4	0.534 4	0.689 11	0.770 2	0.574 3	0.865 11	0.831 3	0.675 6
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia and Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MVF-GNN（2D）	0.636 3	0.606 16	0.794 4	0.434 17	0.688 1	0.337 8	0.464 14	0.798 4	0.632 5	0.589 3	0.908 9	0.420 2	0.329 14	0.743 2	0.594 2	0.738 2	0.676 5	0.527 4	0.906 2	0.818 6	0.715 3

CU-Hybrid-2D Net	0.636 3	0.825 2	0.820 2	0.179 25	0.648 4	0.463 3	0.549 2	0.742 9	0.676 2	0.628 2	0.961 1	0.420 2	0.379 7	0.684 8	0.381 20	0.732 3	0.723 3	0.599 2	0.827 18	0.851 2	0.634 9

DVEFormer	0.626 5	0.616 12	0.764 6	0.690 5	0.583 11	0.322 14	0.540 3	0.809 3	0.593 7	0.502 12	0.900 14	0.374 9	0.433 3	0.660 9	0.528 5	0.665 19	0.663 6	0.491 9	0.871 10	0.810 9	0.705 4

CMX	0.613 6	0.681 9	0.725 13	0.502 13	0.634 6	0.297 19	0.478 12	0.830 2	0.651 4	0.537 7	0.924 4	0.375 7	0.315 16	0.686 7	0.451 15	0.714 5	0.543 23	0.504 6	0.894 7	0.823 5	0.688 5

DMMF_3d	0.605 7	0.651 10	0.744 11	0.782 3	0.637 5	0.387 4	0.536 5	0.732 10	0.590 8	0.540 6	0.856 23	0.359 12	0.306 17	0.596 16	0.539 3	0.627 22	0.706 4	0.497 8	0.785 23	0.757 21	0.476 24

EMSANet	0.600 8	0.716 4	0.746 10	0.395 20	0.614 9	0.382 5	0.523 6	0.713 13	0.571 12	0.503 10	0.922 7	0.404 5	0.397 5	0.655 10	0.400 17	0.626 23	0.663 6	0.469 14	0.900 4	0.827 4	0.577 16
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
MCA-Net	0.595 9	0.533 22	0.756 9	0.746 4	0.590 10	0.334 10	0.506 9	0.670 17	0.587 9	0.500 13	0.905 11	0.366 11	0.352 10	0.601 15	0.506 9	0.669 17	0.648 10	0.501 7	0.839 17	0.769 17	0.516 23

RFBNet	0.592 10	0.616 12	0.758 8	0.659 6	0.581 12	0.330 11	0.469 13	0.655 20	0.543 15	0.524 8	0.924 4	0.355 14	0.336 12	0.572 19	0.479 11	0.671 15	0.648 10	0.480 11	0.814 21	0.814 7	0.614 12

FAN_NV_RVC	0.586 11	0.510 23	0.764 6	0.079 28	0.620 8	0.330 11	0.494 10	0.753 7	0.573 10	0.556 5	0.884 18	0.405 4	0.303 18	0.718 3	0.452 14	0.672 14	0.658 8	0.509 5	0.898 5	0.813 8	0.727 2

WSGFormer	0.585 12	0.706 5	0.708 18	0.434 17	0.574 14	0.283 22	0.538 4	0.759 6	0.542 17	0.482 17	0.924 4	0.351 16	0.333 13	0.614 12	0.393 18	0.692 10	0.551 22	0.461 15	0.874 9	0.809 10	0.673 7

DCRedNet	0.583 13	0.682 8	0.723 14	0.542 12	0.510 22	0.310 16	0.451 15	0.668 18	0.549 14	0.520 9	0.920 8	0.375 7	0.446 2	0.528 22	0.417 16	0.670 16	0.577 19	0.478 12	0.862 12	0.806 11	0.628 11

MIX6D_RVC	0.582 14	0.695 6	0.687 19	0.225 23	0.632 7	0.328 13	0.550 1	0.748 8	0.623 6	0.494 16	0.890 16	0.350 17	0.254 25	0.688 6	0.454 13	0.716 4	0.597 18	0.489 10	0.881 8	0.768 18	0.575 17

SSMA	0.577 15	0.695 6	0.716 16	0.439 15	0.563 16	0.314 15	0.444 17	0.719 11	0.551 13	0.503 10	0.887 17	0.346 18	0.348 11	0.603 14	0.353 22	0.709 6	0.600 16	0.457 16	0.901 3	0.786 13	0.599 15
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
DMMF	0.567 16	0.623 11	0.767 5	0.238 22	0.571 15	0.347 6	0.413 21	0.719 11	0.472 22	0.418 24	0.895 15	0.357 13	0.260 24	0.696 5	0.523 8	0.666 18	0.642 12	0.437 20	0.895 6	0.793 12	0.603 14

UNIV_CNP_RVC_UE	0.566 17	0.569 21	0.686 21	0.435 16	0.524 19	0.294 20	0.421 20	0.712 14	0.543 15	0.463 19	0.872 19	0.320 19	0.363 9	0.611 13	0.477 12	0.686 12	0.627 13	0.443 19	0.862 12	0.775 16	0.639 8

EMSAFormer	0.564 18	0.581 18	0.736 12	0.564 11	0.546 18	0.219 25	0.517 7	0.675 16	0.486 21	0.427 23	0.904 12	0.352 15	0.320 15	0.589 17	0.528 5	0.708 7	0.464 26	0.413 24	0.847 16	0.786 13	0.611 13

SN_RN152pyrx8_RVC	0.546 19	0.572 19	0.663 23	0.638 8	0.518 20	0.298 18	0.366 26	0.633 23	0.510 19	0.446 21	0.864 21	0.296 22	0.267 21	0.542 21	0.346 23	0.704 8	0.575 20	0.431 21	0.853 15	0.766 19	0.630 10

UDSSEG_RVC	0.545 20	0.610 15	0.661 24	0.588 9	0.556 17	0.268 23	0.482 11	0.642 22	0.572 11	0.475 18	0.836 25	0.312 20	0.367 8	0.630 11	0.189 25	0.639 21	0.495 25	0.452 17	0.826 19	0.756 22	0.541 19

segfomer with 6d	0.542 21	0.594 17	0.687 19	0.146 26	0.579 13	0.308 17	0.515 8	0.703 15	0.472 22	0.498 14	0.868 20	0.369 10	0.282 19	0.589 17	0.390 19	0.701 9	0.556 21	0.416 23	0.860 14	0.759 20	0.539 21

FuseNet	0.535 22	0.570 20	0.681 22	0.182 24	0.512 21	0.290 21	0.431 18	0.659 19	0.504 20	0.495 15	0.903 13	0.308 21	0.428 4	0.523 23	0.365 21	0.676 13	0.621 15	0.470 13	0.762 24	0.779 15	0.541 19
Caner Hazirbas, Lingni Ma, Csaba Domokos, Daniel Cremers: FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. ACCV 2016
AdapNet++	0.503 23	0.613 14	0.722 15	0.418 19	0.358 28	0.337 8	0.370 25	0.479 26	0.443 24	0.368 26	0.907 10	0.207 25	0.213 27	0.464 26	0.525 7	0.618 24	0.657 9	0.450 18	0.788 22	0.721 25	0.408 27
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
3DMV (2d proj)	0.498 24	0.481 26	0.612 25	0.579 10	0.456 24	0.343 7	0.384 23	0.623 24	0.525 18	0.381 25	0.845 24	0.254 24	0.264 23	0.557 20	0.182 26	0.581 26	0.598 17	0.429 22	0.760 25	0.661 27	0.446 26
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
MSeg1080_RVC	0.485 25	0.505 24	0.709 17	0.092 27	0.427 25	0.241 24	0.411 22	0.654 21	0.385 28	0.457 20	0.861 22	0.053 28	0.279 20	0.503 24	0.481 10	0.645 20	0.626 14	0.365 26	0.748 26	0.725 24	0.529 22
John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun: MSeg: A Composite Dataset for Multi-domain Semantic Segmentation. CVPR 2020
ILC-PSPNet	0.475 26	0.490 25	0.581 26	0.289 21	0.507 23	0.067 28	0.379 24	0.610 25	0.417 26	0.435 22	0.822 27	0.278 23	0.267 21	0.503 24	0.228 24	0.616 25	0.533 24	0.375 25	0.820 20	0.729 23	0.560 18

Enet (reimpl)	0.376 27	0.264 28	0.452 28	0.452 14	0.365 26	0.181 26	0.143 28	0.456 27	0.409 27	0.346 27	0.769 28	0.164 26	0.218 26	0.359 27	0.123 28	0.403 28	0.381 28	0.313 28	0.571 27	0.685 26	0.472 25
Re-implementation of Adam Paszke, Abhishek Chaurasia, Sangpil Kim, Eugenio Culurciello: ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation.
ScanNet (2d proj)	0.330 28	0.293 27	0.521 27	0.657 7	0.361 27	0.161 27	0.250 27	0.004 28	0.440 25	0.183 28	0.836 25	0.125 27	0.060 28	0.319 28	0.132 27	0.417 27	0.412 27	0.344 27	0.541 28	0.427 28	0.109 28
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

EMSANet (Instance)	0.241 1	0.401 1	0.439 1	0.085 1	0.242 1	0.220 1	0.081 1	0.289 2	0.117 2	0.121 1	0.182 1	0.126 1	0.346 1	0.181 2	0.181 2	0.358 1	0.156 1	0.675 2	0.131 1
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
UniDet_RVC	0.205 2	0.381 2	0.323 3	0.037 3	0.226 3	0.177 3	0.063 2	0.277 3	0.120 1	0.067 3	0.131 3	0.074 3	0.317 2	0.080 3	0.235 1	0.289 3	0.141 3	0.678 1	0.080 3

FKNet	0.204 3	0.334 3	0.358 2	0.038 2	0.234 2	0.184 2	0.025 3	0.318 1	0.042 4	0.088 2	0.141 2	0.053 4	0.300 3	0.207 1	0.171 3	0.292 2	0.149 2	0.636 3	0.109 2

MaskRCNN_ScanNet	0.119 4	0.129 4	0.212 4	0.002 4	0.112 4	0.148 4	0.014 4	0.205 4	0.044 3	0.066 4	0.078 4	0.095 2	0.142 4	0.030 4	0.128 4	0.139 4	0.080 4	0.459 4	0.057 4
Re-implementation of Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick: Mask R-CNN. ICCV'17

Presenting the ScanNet200 Benchmark

ScanNet200 Benchmark

ScanNet200 3D Semantic Label Benchmark

ScanNet200 3D Semantic Instance Benchmark

ScanNet Benchmark

3D Semantic Label Benchmark

3D Semantic Instance Benchmark

2D Semantic Label Benchmark

2D Semantic Instance Benchmark

Scene Type Classification Benchmark

Method	avg recall	apartment	bathroom	bedroom / hotel	bookstore / library	conference room	copy/mail room	hallway	kitchen	laundry room	living room / lounge	misc	office	storage / basement / garage

LAST-PCL-type	0.780 1	0.250 3	1.000 1	1.000 1	1.000 1	1.000 1	1.000 1	0.500 2	1.000 1	0.500 2	0.889 1	0.000 2	1.000 1	1.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang: Language-Assisted 3D Scene Understanding. arxiv23.12
multi-task	0.700 2	0.500 1	1.000 1	0.882 3	0.500 3	1.000 1	1.000 1	0.500 2	1.000 1	1.000 1	0.778 2	0.000 2	0.938 2	0.000 3
Shengyu Huang, Mikhail Usvyatsov, Konrad Schindler: Indoor Scene Recognition in 3D. IROS 2020
3DASPP-SCE	0.691 3	0.500 1	0.938 3	0.824 4	1.000 1	1.000 1	0.500 3	1.000 1	0.857 3	0.500 2	0.556 4	0.000 2	0.812 3	0.500 2

SE-ResNeXt-SSMA	0.498 4	0.000 5	0.812 4	0.941 2	0.500 3	0.500 4	0.500 3	0.500 2	0.429 5	0.500 2	0.667 3	0.500 1	0.625 4	0.000 3
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. arXiv
resnet50_scannet	0.353 5	0.250 3	0.812 4	0.529 5	0.500 3	0.500 4	0.000 5	0.500 2	0.571 4	0.000 5	0.556 4	0.000 2	0.375 5	0.000 3