Benchmark Results - ScanNet Benchmark

This table lists the benchmark results for the ScanNet200 3D semantic label scenario.

Method	avg iou	head iou	common iou	tail iou	wall	chair	floor	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

PTv3 ScanNet200	0.393 1	0.592 1	0.330 1	0.216 1	0.851 1	0.687 3	0.971 1	0.586 1	0.755 1	0.752 4	0.505 1	0.404 4	0.575 2	0.000 9	0.848 1	0.616 1	0.761 1	0.349 1	0.738 1	0.978 1	0.546 3	0.860 6	0.926 1	0.346 1	0.654 3	0.384 4	0.828 1	0.523 3	0.699 1	0.583 3	0.387 5	0.822 1	0.688 1	0.118 4	0.474 1	0.603 4	0.000 1	0.832 2	0.903 1	0.753 7	0.140 6	0.000 7	0.650 1	0.109 2	0.520 1	0.457 1	0.497 6	0.871 3	0.281 1	0.192 2	0.887 2	0.748 1	0.168 1	0.727 2	0.733 1	0.740 1	0.644 1	0.714 3	0.190 7	0.000 3	0.256 2	0.449 5	0.914 1	0.514 1	0.759 9	0.337 1	0.172 3	0.692 3	0.617 1	0.636 1	0.325 3	0.000 1	0.641 1	0.782 1	0.000 4	0.065 2	0.000 1	0.000 3	0.842 1	0.903 1	0.661 1	0.662 2	0.612 1	0.405 2	0.731 1	0.566 1	0.000 3	0.000 4	0.000 1	0.017 9	0.301 1	0.088 4	0.941 1	0.000 1	0.077 2	0.000 7	0.717 2	0.790 1	0.310 9	0.026 11	0.264 2	0.349 1	0.220 2	0.397 7	0.366 1	0.115 7	0.000 3	0.337 1	0.463 4	0.000 1	0.531 1	0.218 1	0.593 1	0.455 1	0.469 1	0.708 1	0.210 1	0.592 2	0.108 10	0.000 1	0.728 1	0.682 2	0.671 4	0.000 1	0.000 6	0.407 1	0.136 1	0.022 2	0.575 1	0.436 4	0.259 1	0.428 1	0.048 2	0.000 1	0.000 1	0.879 5	0.000 1	0.480 1	0.000 1	0.133 4	0.597 1	0.000 1	0.690 1	0.000 1	0.000 1	0.009 10	0.000 9	0.921 2	0.000 5	0.151 1	0.000 1	0.000 5	0.000 1	0.109 6	0.494 8	0.622 2	0.394 6	0.073 9	0.141 7	0.798 1	0.528 2	0.026 1	0.000 1	0.551 2	0.000 2	0.000 2	0.134 5	0.717 4	0.000 2	0.000 1	0.000 1	0.188 2	0.000 4	0.000 2	0.791 1	0.000 1
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024
OctFormer ScanNet200	0.326 7	0.539 6	0.265 6	0.131 6	0.806 5	0.670 7	0.943 6	0.535 7	0.662 2	0.705 10	0.423 5	0.407 3	0.505 8	0.003 7	0.765 7	0.582 4	0.686 9	0.227 10	0.680 5	0.943 5	0.601 1	0.854 8	0.892 2	0.335 2	0.417 11	0.357 6	0.724 7	0.453 5	0.632 4	0.596 2	0.432 2	0.783 6	0.512 11	0.021 9	0.244 9	0.637 1	0.000 1	0.787 6	0.873 6	0.743 9	0.000 11	0.000 7	0.534 5	0.110 1	0.499 4	0.289 5	0.626 4	0.620 9	0.168 11	0.204 1	0.849 4	0.679 4	0.117 2	0.633 6	0.684 2	0.650 5	0.552 2	0.684 7	0.312 2	0.000 3	0.175 6	0.429 6	0.865 3	0.413 2	0.837 6	0.000 3	0.145 5	0.626 5	0.451 4	0.487 7	0.513 1	0.000 1	0.529 4	0.613 7	0.000 4	0.033 3	0.000 1	0.000 3	0.828 2	0.871 2	0.622 5	0.587 5	0.411 4	0.137 8	0.645 8	0.343 6	0.000 3	0.000 4	0.000 1	0.022 7	0.000 3	0.026 11	0.829 8	0.000 1	0.022 5	0.089 3	0.842 1	0.253 10	0.318 8	0.296 2	0.178 6	0.291 3	0.224 1	0.584 2	0.200 8	0.132 5	0.000 3	0.128 5	0.227 10	0.000 1	0.230 7	0.047 8	0.149 4	0.331 7	0.412 6	0.618 4	0.164 5	0.102 6	0.522 1	0.000 1	0.655 3	0.378 7	0.469 9	0.000 1	0.000 6	0.000 6	0.105 5	0.000 5	0.000 6	0.483 3	0.000 6	0.000 4	0.028 4	0.000 1	0.000 1	0.906 1	0.000 1	0.339 9	0.000 1	0.000 7	0.457 6	0.000 1	0.612 5	0.000 1	0.000 1	0.408 2	0.000 9	0.900 6	0.000 5	0.000 5	0.000 1	0.029 4	0.000 1	0.074 11	0.455 9	0.479 3	0.427 4	0.079 7	0.140 8	0.496 5	0.414 8	0.022 2	0.000 1	0.471 8	0.000 2	0.000 2	0.000 7	0.722 3	0.000 2	0.000 1	0.000 1	0.138 8	0.000 4	0.000 2	0.000 6	0.000 1
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
OA-CNN-L_ScanNet200	0.333 5	0.558 2	0.269 5	0.124 7	0.821 2	0.703 1	0.946 3	0.569 2	0.662 2	0.748 5	0.487 2	0.455 1	0.572 4	0.000 9	0.789 4	0.534 5	0.736 5	0.271 3	0.713 2	0.949 3	0.498 10	0.877 2	0.860 5	0.332 3	0.706 1	0.474 1	0.788 5	0.406 7	0.637 3	0.495 5	0.355 6	0.805 3	0.592 9	0.015 10	0.396 2	0.602 5	0.000 1	0.799 5	0.876 4	0.713 11	0.276 1	0.000 7	0.493 7	0.080 5	0.448 9	0.363 2	0.661 2	0.833 5	0.262 3	0.125 3	0.823 6	0.665 5	0.076 6	0.720 3	0.557 5	0.637 6	0.517 5	0.672 8	0.227 5	0.000 3	0.158 7	0.496 4	0.843 8	0.352 6	0.835 7	0.000 3	0.103 9	0.711 2	0.527 2	0.526 4	0.320 4	0.000 1	0.568 3	0.625 6	0.067 1	0.000 6	0.000 1	0.001 2	0.806 3	0.836 5	0.621 6	0.591 4	0.373 5	0.314 4	0.668 4	0.398 5	0.003 2	0.000 4	0.000 1	0.016 10	0.024 2	0.043 9	0.906 4	0.000 1	0.052 4	0.000 7	0.384 6	0.330 8	0.342 5	0.100 6	0.223 4	0.183 7	0.112 4	0.476 4	0.313 4	0.130 6	0.196 2	0.112 6	0.370 8	0.000 1	0.234 6	0.071 6	0.160 3	0.403 3	0.398 8	0.492 9	0.197 2	0.076 8	0.272 3	0.000 1	0.200 11	0.560 5	0.735 3	0.000 1	0.000 6	0.000 6	0.110 4	0.002 4	0.021 5	0.412 5	0.000 6	0.000 4	0.000 7	0.000 1	0.000 1	0.794 6	0.000 1	0.445 2	0.000 1	0.022 5	0.509 5	0.000 1	0.517 10	0.000 1	0.000 1	0.001 11	0.245 2	0.915 4	0.024 2	0.089 2	0.000 1	0.262 2	0.000 1	0.103 8	0.524 4	0.392 7	0.515 2	0.013 11	0.251 4	0.411 9	0.662 1	0.001 7	0.000 1	0.473 7	0.000 2	0.000 2	0.150 4	0.699 5	0.000 2	0.000 1	0.000 1	0.166 4	0.000 4	0.024 1	0.000 6	0.000 1

PPT-SpUNet-F.T.	0.332 6	0.556 3	0.270 3	0.123 8	0.816 3	0.682 4	0.946 3	0.549 5	0.657 5	0.756 3	0.459 4	0.376 5	0.550 6	0.001 8	0.807 2	0.616 1	0.727 6	0.267 4	0.691 3	0.942 6	0.530 6	0.872 4	0.874 4	0.330 4	0.542 8	0.374 5	0.792 3	0.400 8	0.673 2	0.572 4	0.433 1	0.793 4	0.623 4	0.008 11	0.351 4	0.594 6	0.000 1	0.783 7	0.876 4	0.833 4	0.213 3	0.000 7	0.537 4	0.091 3	0.519 2	0.304 4	0.620 5	0.942 1	0.264 2	0.124 4	0.855 3	0.695 2	0.086 5	0.646 5	0.506 10	0.658 4	0.535 3	0.715 2	0.314 1	0.000 3	0.241 3	0.608 2	0.897 2	0.359 5	0.858 5	0.000 3	0.076 11	0.611 7	0.392 6	0.509 5	0.378 2	0.000 1	0.579 2	0.565 10	0.000 4	0.000 6	0.000 1	0.000 3	0.755 4	0.806 7	0.661 1	0.572 9	0.350 6	0.181 6	0.660 6	0.300 8	0.000 3	0.000 4	0.000 1	0.023 6	0.000 3	0.042 10	0.930 2	0.000 1	0.000 7	0.077 4	0.584 3	0.392 6	0.339 6	0.185 4	0.171 7	0.308 2	0.006 9	0.563 3	0.256 5	0.150 1	0.000 3	0.002 10	0.345 9	0.000 1	0.045 8	0.197 2	0.063 5	0.323 8	0.453 2	0.600 5	0.163 6	0.037 9	0.349 2	0.000 1	0.672 2	0.679 3	0.753 1	0.000 1	0.000 6	0.000 6	0.117 2	0.000 5	0.000 6	0.291 8	0.000 6	0.000 4	0.039 3	0.000 1	0.000 1	0.899 2	0.000 1	0.374 7	0.000 1	0.000 7	0.545 4	0.000 1	0.634 3	0.000 1	0.000 1	0.074 7	0.223 3	0.914 5	0.000 5	0.021 3	0.000 1	0.000 5	0.000 1	0.112 4	0.498 7	0.649 1	0.383 7	0.095 1	0.135 10	0.449 7	0.432 6	0.008 5	0.000 1	0.518 4	0.000 2	0.000 2	0.000 7	0.796 2	0.000 2	0.000 1	0.000 1	0.138 8	0.000 4	0.000 2	0.000 6	0.000 1
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
Minkowski 34D	0.253 10	0.463 10	0.154 11	0.102 10	0.771 10	0.650 10	0.932 9	0.483 10	0.571 10	0.710 9	0.331 10	0.250 10	0.492 9	0.044 4	0.703 10	0.419 11	0.606 11	0.227 10	0.621 10	0.865 11	0.531 5	0.771 11	0.813 8	0.291 5	0.484 9	0.242 10	0.612 11	0.282 11	0.440 11	0.351 9	0.299 9	0.622 10	0.593 8	0.027 8	0.293 7	0.310 11	0.000 1	0.757 8	0.858 9	0.737 10	0.150 5	0.164 1	0.368 11	0.084 4	0.381 11	0.142 11	0.357 9	0.720 7	0.214 8	0.092 10	0.724 10	0.596 11	0.056 9	0.655 4	0.525 8	0.581 11	0.352 11	0.594 10	0.056 11	0.000 3	0.014 11	0.224 10	0.772 9	0.205 11	0.720 10	0.000 3	0.159 4	0.531 10	0.163 11	0.294 10	0.136 11	0.000 1	0.169 10	0.589 9	0.000 4	0.000 6	0.000 1	0.002 1	0.663 5	0.466 11	0.265 11	0.582 6	0.337 7	0.016 10	0.559 9	0.084 11	0.000 3	0.000 4	0.000 1	0.036 3	0.000 3	0.125 3	0.670 10	0.000 1	0.102 1	0.071 5	0.164 9	0.406 5	0.386 4	0.046 10	0.068 11	0.159 9	0.117 3	0.284 10	0.111 10	0.094 10	0.000 3	0.000 11	0.197 11	0.000 1	0.044 9	0.013 9	0.002 8	0.228 11	0.307 11	0.588 6	0.025 11	0.545 3	0.134 9	0.000 1	0.655 3	0.302 9	0.282 11	0.000 1	0.060 1	0.000 6	0.035 11	0.000 5	0.000 6	0.097 11	0.000 6	0.000 4	0.005 6	0.000 1	0.000 1	0.096 11	0.000 1	0.334 10	0.000 1	0.000 7	0.274 10	0.000 1	0.513 11	0.000 1	0.000 1	0.280 5	0.194 4	0.897 7	0.000 5	0.000 5	0.000 1	0.000 5	0.000 1	0.108 7	0.279 11	0.189 10	0.141 11	0.059 10	0.272 2	0.307 11	0.445 4	0.003 6	0.000 1	0.353 10	0.000 2	0.026 1	0.000 7	0.581 9	0.001 1	0.000 1	0.000 1	0.093 11	0.002 3	0.000 2	0.000 6	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
PonderV2 ScanNet200	0.346 2	0.552 4	0.270 4	0.175 3	0.810 4	0.682 4	0.950 2	0.560 4	0.641 6	0.761 1	0.398 7	0.357 6	0.570 5	0.113 2	0.804 3	0.603 3	0.750 3	0.283 2	0.681 4	0.952 2	0.548 2	0.874 3	0.852 7	0.290 6	0.700 2	0.356 7	0.792 3	0.445 6	0.545 7	0.436 6	0.351 7	0.787 5	0.611 5	0.050 6	0.290 8	0.519 8	0.000 1	0.825 4	0.888 2	0.842 3	0.259 2	0.100 2	0.558 3	0.070 8	0.497 5	0.247 8	0.457 7	0.889 2	0.248 5	0.106 6	0.817 7	0.691 3	0.094 4	0.729 1	0.636 3	0.620 8	0.503 7	0.660 9	0.243 4	0.000 3	0.212 5	0.590 3	0.860 6	0.400 3	0.881 3	0.000 3	0.202 1	0.622 6	0.408 5	0.499 6	0.261 6	0.000 1	0.385 5	0.636 5	0.000 4	0.000 6	0.000 1	0.000 3	0.433 11	0.843 4	0.660 3	0.574 8	0.481 2	0.336 3	0.677 3	0.486 2	0.000 3	0.030 1	0.000 1	0.034 4	0.000 3	0.080 5	0.869 7	0.000 1	0.000 7	0.000 7	0.540 4	0.727 2	0.232 11	0.115 5	0.186 5	0.193 5	0.000 10	0.403 6	0.326 3	0.103 8	0.000 3	0.290 3	0.392 6	0.000 1	0.346 4	0.062 7	0.424 2	0.375 4	0.431 3	0.667 2	0.115 8	0.082 7	0.239 4	0.000 1	0.504 8	0.606 4	0.584 6	0.000 1	0.002 4	0.186 4	0.104 6	0.000 5	0.394 2	0.384 6	0.083 4	0.000 4	0.007 5	0.000 1	0.000 1	0.880 4	0.000 1	0.377 6	0.000 1	0.263 2	0.565 2	0.000 1	0.608 6	0.000 1	0.000 1	0.304 4	0.009 5	0.924 1	0.000 5	0.000 5	0.000 1	0.000 5	0.000 1	0.128 2	0.584 1	0.475 4	0.412 5	0.076 8	0.269 3	0.621 3	0.509 3	0.010 3	0.000 1	0.491 6	0.063 1	0.000 2	0.472 3	0.880 1	0.000 2	0.000 1	0.000 1	0.179 3	0.125 1	0.000 2	0.441 5	0.000 1
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
L3DETR-ScanNet_200	0.336 4	0.533 7	0.279 2	0.155 4	0.801 6	0.689 2	0.946 3	0.539 6	0.660 4	0.759 2	0.380 8	0.333 8	0.583 1	0.000 9	0.788 5	0.529 6	0.740 4	0.261 6	0.679 6	0.940 7	0.525 7	0.860 6	0.883 3	0.226 7	0.613 6	0.397 3	0.720 8	0.512 4	0.565 6	0.620 1	0.417 3	0.775 8	0.629 3	0.158 2	0.298 6	0.579 7	0.000 1	0.835 1	0.883 3	0.927 1	0.114 7	0.079 4	0.511 6	0.073 7	0.508 3	0.312 3	0.629 3	0.861 4	0.192 10	0.098 9	0.908 1	0.636 7	0.032 11	0.563 11	0.514 9	0.664 3	0.505 6	0.697 5	0.225 6	0.000 3	0.264 1	0.411 7	0.860 6	0.321 7	0.960 1	0.058 2	0.109 8	0.776 1	0.526 3	0.557 2	0.303 5	0.000 1	0.339 6	0.712 3	0.000 4	0.014 4	0.000 1	0.000 3	0.638 7	0.856 3	0.641 4	0.579 7	0.107 11	0.119 9	0.661 5	0.416 3	0.000 3	0.000 4	0.000 1	0.007 11	0.000 3	0.067 7	0.910 3	0.000 1	0.000 7	0.000 7	0.463 5	0.448 4	0.294 10	0.324 1	0.293 1	0.211 4	0.108 5	0.448 5	0.068 11	0.141 3	0.000 3	0.330 2	0.699 1	0.000 1	0.256 5	0.192 3	0.000 9	0.355 5	0.418 4	0.209 11	0.146 7	0.679 1	0.101 11	0.000 1	0.503 9	0.687 1	0.671 4	0.000 1	0.000 6	0.174 5	0.117 2	0.000 5	0.122 4	0.515 2	0.104 2	0.259 2	0.312 1	0.000 1	0.000 1	0.765 7	0.000 1	0.369 8	0.000 1	0.183 3	0.422 8	0.000 1	0.646 2	0.000 1	0.000 1	0.565 1	0.001 8	0.125 11	0.010 3	0.002 4	0.000 1	0.487 1	0.000 1	0.075 10	0.548 2	0.420 5	0.233 10	0.082 6	0.138 9	0.430 8	0.427 7	0.000 8	0.000 1	0.549 3	0.000 2	0.000 2	0.074 6	0.409 10	0.000 2	0.000 1	0.000 1	0.152 5	0.051 2	0.000 2	0.598 3	0.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, Jian Zhang: Language-Assisted 3D Scene Understanding. arXiv23.12
CSC-Pretrain	0.249 11	0.455 11	0.171 10	0.079 11	0.766 11	0.659 9	0.930 11	0.494 8	0.542 11	0.700 11	0.314 11	0.215 11	0.430 11	0.121 1	0.697 11	0.441 10	0.683 10	0.235 8	0.609 11	0.895 10	0.476 11	0.816 10	0.770 11	0.186 8	0.634 4	0.216 11	0.734 6	0.340 10	0.471 10	0.307 10	0.293 11	0.591 11	0.542 10	0.076 5	0.205 10	0.464 9	0.000 1	0.484 11	0.832 11	0.766 6	0.052 10	0.000 7	0.413 10	0.059 10	0.418 10	0.222 10	0.318 11	0.609 10	0.206 9	0.112 5	0.743 8	0.625 8	0.076 6	0.579 10	0.548 7	0.590 10	0.371 10	0.552 11	0.081 10	0.003 2	0.142 8	0.201 11	0.638 11	0.233 10	0.686 11	0.000 3	0.142 6	0.444 11	0.375 7	0.247 11	0.198 8	0.000 1	0.128 11	0.454 11	0.019 2	0.097 1	0.000 1	0.000 3	0.553 9	0.557 10	0.373 7	0.545 10	0.164 10	0.014 11	0.547 10	0.174 9	0.000 3	0.002 2	0.000 1	0.037 2	0.000 3	0.063 8	0.664 11	0.000 1	0.000 7	0.130 2	0.170 8	0.152 11	0.335 7	0.079 8	0.110 9	0.175 8	0.098 6	0.175 11	0.166 9	0.045 11	0.207 1	0.014 8	0.465 3	0.000 1	0.001 11	0.001 11	0.046 6	0.299 9	0.327 10	0.537 7	0.033 10	0.012 11	0.186 7	0.000 1	0.205 10	0.377 8	0.463 10	0.000 1	0.058 2	0.000 6	0.055 9	0.041 1	0.000 6	0.105 10	0.000 6	0.000 4	0.000 7	0.000 1	0.000 1	0.398 9	0.000 1	0.308 11	0.000 1	0.000 7	0.319 9	0.000 1	0.543 9	0.000 1	0.000 1	0.062 9	0.004 7	0.862 10	0.000 5	0.000 5	0.000 1	0.000 5	0.000 1	0.123 3	0.316 10	0.225 9	0.250 9	0.094 2	0.180 5	0.332 10	0.441 5	0.000 8	0.000 1	0.310 11	0.000 2	0.000 2	0.000 7	0.592 8	0.000 2	0.000 1	0.000 1	0.203 1	0.000 4	0.000 2	0.000 6	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
AWCS	0.305 8	0.508 8	0.225 8	0.142 5	0.782 8	0.634 11	0.937 8	0.489 9	0.578 8	0.721 6	0.364 9	0.355 7	0.515 7	0.023 6	0.764 8	0.523 7	0.707 8	0.264 5	0.633 8	0.922 8	0.507 9	0.886 1	0.804 9	0.179 9	0.436 10	0.300 8	0.656 10	0.529 2	0.501 9	0.394 7	0.296 10	0.820 2	0.603 6	0.131 3	0.179 11	0.619 2	0.000 1	0.707 10	0.865 8	0.773 5	0.171 4	0.010 6	0.484 8	0.063 9	0.463 8	0.254 7	0.332 10	0.649 8	0.220 7	0.100 7	0.729 9	0.613 9	0.071 8	0.582 9	0.628 4	0.702 2	0.424 9	0.749 1	0.137 9	0.000 3	0.142 8	0.360 8	0.863 4	0.305 8	0.877 4	0.000 3	0.173 2	0.606 8	0.337 8	0.478 8	0.154 9	0.000 1	0.253 8	0.664 4	0.000 4	0.000 6	0.000 1	0.000 3	0.626 8	0.782 8	0.302 10	0.602 3	0.185 9	0.282 5	0.651 7	0.317 7	0.000 3	0.000 4	0.000 1	0.022 7	0.000 3	0.154 1	0.876 6	0.000 1	0.014 6	0.063 6	0.029 11	0.553 3	0.467 2	0.084 7	0.124 8	0.157 10	0.049 8	0.373 8	0.252 6	0.097 9	0.000 3	0.219 4	0.542 2	0.000 1	0.392 2	0.172 5	0.000 9	0.339 6	0.417 5	0.533 8	0.093 9	0.115 5	0.195 6	0.000 1	0.516 6	0.288 10	0.741 2	0.000 1	0.001 5	0.233 3	0.056 8	0.000 5	0.159 3	0.334 7	0.077 5	0.000 4	0.000 7	0.000 1	0.000 1	0.749 8	0.000 1	0.411 4	0.000 1	0.008 6	0.452 7	0.000 1	0.595 7	0.000 1	0.000 1	0.220 6	0.006 6	0.894 8	0.006 4	0.000 5	0.000 1	0.000 5	0.000 1	0.112 4	0.504 5	0.404 6	0.551 1	0.093 3	0.129 11	0.484 6	0.381 11	0.000 8	0.000 1	0.396 9	0.000 2	0.000 2	0.620 2	0.402 11	0.000 2	0.000 1	0.000 1	0.142 7	0.000 4	0.000 2	0.512 4	0.000 1

LGround	0.272 9	0.485 9	0.184 9	0.106 9	0.778 9	0.676 6	0.932 9	0.479 11	0.572 9	0.718 8	0.399 6	0.265 9	0.453 10	0.085 3	0.745 9	0.446 9	0.726 7	0.232 9	0.622 9	0.901 9	0.512 8	0.826 9	0.786 10	0.178 10	0.549 7	0.277 9	0.659 9	0.381 9	0.518 8	0.295 11	0.323 8	0.777 7	0.599 7	0.028 7	0.321 5	0.363 10	0.000 1	0.708 9	0.858 9	0.746 8	0.063 9	0.022 5	0.457 9	0.077 6	0.476 6	0.243 9	0.402 8	0.397 11	0.233 6	0.077 11	0.720 11	0.610 10	0.103 3	0.629 7	0.437 11	0.626 7	0.446 8	0.702 4	0.190 7	0.005 1	0.058 10	0.322 9	0.702 10	0.244 9	0.768 8	0.000 3	0.134 7	0.552 9	0.279 10	0.395 9	0.147 10	0.000 1	0.207 9	0.612 8	0.000 4	0.000 6	0.000 1	0.000 3	0.658 6	0.566 9	0.323 9	0.525 11	0.229 8	0.179 7	0.467 11	0.154 10	0.000 3	0.002 2	0.000 1	0.051 1	0.000 3	0.127 2	0.703 9	0.000 1	0.000 7	0.216 1	0.112 10	0.358 7	0.547 1	0.187 3	0.092 10	0.156 11	0.055 7	0.296 9	0.252 6	0.143 2	0.000 3	0.014 8	0.398 5	0.000 1	0.028 10	0.173 4	0.000 9	0.265 10	0.348 9	0.415 10	0.179 3	0.019 10	0.218 5	0.000 1	0.597 5	0.274 11	0.565 7	0.000 1	0.012 3	0.000 6	0.039 10	0.022 2	0.000 6	0.117 9	0.000 6	0.000 4	0.000 7	0.000 1	0.000 1	0.324 10	0.000 1	0.384 5	0.000 1	0.000 7	0.251 11	0.000 1	0.566 8	0.000 1	0.000 1	0.066 8	0.404 1	0.886 9	0.199 1	0.000 5	0.000 1	0.059 3	0.000 1	0.136 1	0.540 3	0.127 11	0.295 8	0.085 5	0.143 6	0.514 4	0.413 9	0.000 8	0.000 1	0.498 5	0.000 2	0.000 2	0.000 7	0.623 7	0.000 2	0.000 1	0.000 1	0.132 10	0.000 4	0.000 2	0.000 6	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild. arXiv
CeCo	0.340 3	0.551 5	0.247 7	0.181 2	0.784 7	0.661 8	0.939 7	0.564 3	0.624 7	0.721 6	0.484 3	0.429 2	0.575 2	0.027 5	0.774 6	0.503 8	0.753 2	0.242 7	0.656 7	0.945 4	0.534 4	0.865 5	0.860 5	0.177 11	0.616 5	0.400 2	0.818 2	0.579 1	0.615 5	0.367 8	0.408 4	0.726 9	0.633 2	0.162 1	0.360 3	0.619 2	0.000 1	0.828 3	0.873 6	0.924 2	0.109 8	0.083 3	0.564 2	0.057 11	0.475 7	0.266 6	0.781 1	0.767 6	0.257 4	0.100 7	0.825 5	0.663 6	0.048 10	0.620 8	0.551 6	0.595 9	0.532 4	0.692 6	0.246 3	0.000 3	0.213 4	0.615 1	0.861 5	0.376 4	0.900 2	0.000 3	0.102 10	0.660 4	0.321 9	0.547 3	0.226 7	0.000 1	0.311 7	0.742 2	0.011 3	0.006 5	0.000 1	0.000 3	0.546 10	0.824 6	0.345 8	0.665 1	0.450 3	0.435 1	0.683 2	0.411 4	0.338 1	0.000 4	0.000 1	0.030 5	0.000 3	0.068 6	0.892 5	0.000 1	0.063 3	0.000 7	0.257 7	0.304 9	0.387 3	0.079 8	0.228 3	0.190 6	0.000 10	0.586 1	0.347 2	0.133 4	0.000 3	0.037 7	0.377 7	0.000 1	0.384 3	0.006 10	0.003 7	0.421 2	0.410 7	0.643 3	0.171 4	0.121 4	0.142 8	0.000 1	0.510 7	0.447 6	0.474 8	0.000 1	0.000 6	0.286 2	0.083 7	0.000 5	0.000 6	0.603 1	0.096 3	0.063 3	0.000 7	0.000 1	0.000 1	0.898 3	0.000 1	0.429 3	0.000 1	0.400 1	0.550 3	0.000 1	0.633 4	0.000 1	0.000 1	0.377 3	0.000 9	0.916 3	0.000 5	0.000 5	0.000 1	0.000 5	0.000 1	0.102 9	0.499 6	0.296 8	0.463 3	0.089 4	0.304 1	0.740 2	0.401 10	0.010 3	0.000 1	0.560 1	0.000 2	0.000 2	0.709 1	0.652 6	0.000 2	0.000 1	0.000 1	0.143 6	0.000 4	0.000 2	0.609 2	0.000 1
Zhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia: Understanding Imbalanced Semantic Segmentation Through Neural Collapse. CVPR 2023

This table lists the benchmark results for the ScanNet200 3D semantic instance scenario.

Method	avg ap	head ap	common ap	tail ap	chair	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

Mask3D Scannet200	0.278 1	0.383 1	0.263 1	0.168 1	0.661 2	0.465 1	0.572 1	0.665 3	0.391 1	0.121 4	0.304 1	0.015 2	0.647 1	0.349 1	0.474 1	0.489 1	0.321 1	0.816 5	0.351 3	0.722 1	0.402 4	0.195 1	0.515 3	0.082 1	0.795 1	0.215 2	0.396 1	0.377 1	0.082 4	0.724 1	0.586 1	0.015 2	0.277 1	0.377 5	0.201 1	0.475 2	0.572 1	0.778 3	0.089 1	0.759 1	0.556 1	0.068 1	0.506 1	0.467 1	0.323 3	0.778 2	0.427 1	0.027 2	0.789 1	0.744 1	0.003 1	0.570 2	0.561 1	0.337 1	0.265 1	0.711 1	0.258 1	0.031 1	0.569 1	0.311 1	0.441 1	0.179 1	1.000 1	0.000 1	0.233 2	0.411 2	0.283 2	0.380 1	0.667 1	0.016 1	0.048 3	0.418 2	0.139 1	0.173 1	0.000 1	0.086 1	0.014 2	0.500 1	0.384 1	0.497 1	0.044 3	0.032 2	0.752 1	0.287 1	0.003 1	0.000 1	0.007 1	0.208 1	0.000 1	0.001 2	0.349 1	0.008 2	0.014 2	0.509 1	0.500 1	0.323 1	0.023 2	0.176 1	0.107 1	0.105 3	0.000 1	0.605 1	0.378 1	0.016 1	0.000 1	0.400 1	0.192 1	0.000 1	0.048 2	0.037 2	0.000 1	0.275 1	0.119 1	0.810 1	0.258 1	0.006 3	0.083 5	0.000 1	0.568 2	0.377 2	0.708 1	0.000 1	0.005 2	0.147 1	0.014 2	0.000 2	0.556 1	0.085 1	0.325 1	0.500 1	0.083 1	0.004 2	0.000 1	0.590 1	0.000 1	0.365 1	0.000 1	0.116 1	0.491 1	0.000 1	0.626 1	0.000 1	0.000 1	0.579 1	0.391 1	0.050 4	0.000 1	0.028 1	0.000 1	0.222 1	0.000 1	0.063 1	0.302 1	0.356 1	0.149 4	0.573 1	0.415 1	0.013 5	0.002 4	0.004 1	0.000 1	0.005 4	0.000 1	0.000 1	0.444 1	0.514 1	0.000 1	0.028 1	0.000 2	0.156 2	0.267 1	0.000 2	1.000 1	0.000 1
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
LGround Inst.	0.154 3	0.275 3	0.108 3	0.060 3	0.573 3	0.381 3	0.434 3	0.654 4	0.190 4	0.141 2	0.097 3	0.000 3	0.503 3	0.180 3	0.252 3	0.242 4	0.242 3	0.881 3	0.448 1	0.494 3	0.429 3	0.078 2	0.364 5	0.024 3	0.654 2	0.213 4	0.222 3	0.239 3	0.099 3	0.616 2	0.363 3	0.000 3	0.092 3	0.444 3	0.000 3	0.383 4	0.209 5	0.815 2	0.030 3	0.000 3	0.166 3	0.002 4	0.295 5	0.099 4	0.364 2	0.778 2	0.177 3	0.001 4	0.427 5	0.585 4	0.000 2	0.470 3	0.268 5	0.205 3	0.045 3	0.642 2	0.007 3	0.000 3	0.333 5	0.148 3	0.407 3	0.130 2	1.000 1	0.000 1	0.156 4	0.189 3	0.097 4	0.169 2	0.000 5	0.000 2	0.056 2	0.400 3	0.000 3	0.000 2	0.000 1	0.000 2	0.556 1	0.278 3	0.203 3	0.323 4	0.019 4	0.000 3	0.402 4	0.026 3	0.000 2	0.000 1	0.000 3	0.044 3	0.000 1	0.000 3	0.037 4	0.000 3	0.000 3	0.181 2	0.000 2	0.127 3	0.006 4	0.028 4	0.023 3	0.115 2	0.000 1	0.327 2	0.267 2	0.000 2	0.000 1	0.000 4	0.028 3	0.000 1	0.000 3	0.000 3	0.000 1	0.003 3	0.048 2	0.135 4	0.222 2	0.089 2	0.278 1	0.000 1	0.514 3	0.333 4	0.611 2	0.000 1	0.000 3	0.000 3	0.000 3	0.000 2	0.000 3	0.037 3	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.322 2	0.000 1	0.209 2	0.000 1	0.000 3	0.278 2	0.000 1	0.302 3	0.000 1	0.000 1	0.143 3	0.148 3	0.000 5	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.015 3	0.064 5	0.000 3	0.272 2	0.031 5	0.000 4	0.257 2	0.028 2	0.000 2	0.000 1	0.041 2	0.000 1	0.000 1	0.000 2	0.222 5	0.000 1	0.000 2	0.000 2	0.000 5	0.000 2	0.000 2	0.000 2	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild.
Minkowski 34D Inst.	0.130 4	0.246 4	0.083 4	0.043 5	0.547 5	0.236 4	0.415 4	0.672 2	0.141 5	0.133 3	0.067 4	0.000 3	0.521 2	0.114 5	0.238 4	0.289 2	0.232 4	0.883 2	0.182 5	0.373 5	0.486 1	0.076 3	0.488 4	0.022 4	0.529 4	0.199 5	0.110 4	0.217 4	0.100 2	0.460 4	0.319 4	0.000 3	0.025 5	0.472 1	0.000 3	0.394 3	0.210 4	0.537 4	0.004 4	0.000 3	0.083 5	0.000 5	0.299 4	0.061 5	0.201 5	0.761 4	0.084 4	0.008 3	0.720 3	0.557 5	0.000 2	0.317 5	0.280 3	0.094 5	0.020 5	0.564 5	0.000 4	0.000 3	0.400 3	0.048 4	0.259 4	0.101 3	1.000 1	0.000 1	0.190 3	0.142 5	0.094 5	0.137 3	0.089 3	0.000 2	0.101 1	0.355 5	0.000 3	0.000 2	0.000 1	0.000 2	0.000 3	0.444 2	0.082 5	0.384 2	0.000 5	0.000 3	0.334 5	0.004 5	0.000 2	0.000 1	0.000 3	0.041 4	0.000 1	0.000 3	0.026 5	0.000 3	0.000 3	0.000 4	0.000 2	0.082 5	0.022 3	0.000 5	0.021 4	0.088 4	0.000 1	0.241 4	0.033 4	0.000 2	0.000 1	0.067 3	0.000 5	0.000 1	0.000 3	0.000 3	0.000 1	0.000 4	0.026 4	0.262 2	0.016 4	0.000 4	0.278 1	0.000 1	0.500 4	0.394 1	0.028 5	0.000 1	0.000 3	0.000 3	0.000 3	0.000 2	0.000 3	0.019 4	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.156 5	0.000 1	0.032 5	0.000 1	0.000 3	0.194 5	0.000 1	0.248 4	0.000 1	0.000 1	0.099 4	0.019 4	0.308 2	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.007 4	0.122 2	0.000 3	0.175 3	0.063 2	0.000 4	0.271 1	0.000 5	0.000 2	0.000 1	0.000 5	0.000 1	0.000 1	0.000 2	0.278 2	0.000 1	0.000 2	0.000 2	0.111 3	0.000 2	0.000 2	0.000 2	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
TD3D Scannet200	0.211 2	0.332 2	0.177 2	0.103 2	0.662 1	0.413 2	0.463 2	0.705 1	0.192 3	0.145 1	0.266 2	0.215 1	0.452 4	0.209 2	0.222 5	0.219 5	0.315 2	0.893 1	0.380 2	0.617 2	0.439 2	0.047 4	0.646 1	0.080 2	0.610 3	0.253 1	0.237 2	0.293 2	0.135 1	0.379 5	0.494 2	0.048 1	0.252 2	0.451 2	0.184 2	0.483 1	0.395 2	0.852 1	0.083 2	0.551 2	0.278 2	0.036 2	0.337 2	0.266 2	0.544 1	0.963 1	0.079 5	0.039 1	0.740 2	0.604 2	0.000 2	0.586 1	0.283 2	0.282 2	0.059 2	0.633 3	0.028 2	0.004 2	0.559 2	0.309 2	0.420 2	0.028 5	1.000 1	0.000 1	0.456 1	0.411 1	0.372 1	0.060 4	0.046 4	0.000 2	0.040 4	0.694 1	0.083 2	0.000 2	0.000 1	0.000 2	0.000 3	0.083 4	0.252 2	0.260 5	0.200 1	0.160 1	0.669 2	0.111 2	0.000 2	0.000 1	0.006 2	0.169 2	0.000 1	0.007 1	0.296 2	0.032 1	0.074 1	0.139 3	0.000 2	0.321 2	0.031 1	0.108 2	0.088 2	0.157 1	0.000 1	0.231 5	0.026 5	0.000 2	0.000 1	0.356 2	0.052 2	0.000 1	0.240 1	0.147 1	0.000 1	0.015 2	0.046 3	0.144 3	0.073 3	0.414 1	0.222 4	0.000 1	0.806 1	0.343 3	0.486 3	0.000 1	0.008 1	0.038 2	0.083 1	0.002 1	0.028 2	0.074 2	0.032 2	0.150 2	0.039 2	0.008 1	0.000 1	0.250 4	0.000 1	0.125 4	0.000 1	0.052 2	0.260 3	0.000 1	0.143 5	0.000 1	0.000 1	0.543 2	0.207 2	0.404 1	0.000 1	0.003 2	0.000 1	0.000 2	0.000 1	0.037 2	0.093 4	0.272 2	0.342 1	0.039 4	0.281 2	0.249 3	0.224 1	0.000 2	0.000 1	0.074 1	0.000 1	0.000 1	0.000 2	0.278 2	0.000 1	0.000 2	0.889 1	0.323 1	0.000 2	0.014 1	0.000 2	0.000 1
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
CSC-Pretrain Inst.	0.123 5	0.223 5	0.082 5	0.046 4	0.564 4	0.152 5	0.394 5	0.578 5	0.235 2	0.116 5	0.034 5	0.000 3	0.348 5	0.119 4	0.297 2	0.285 3	0.202 5	0.838 4	0.323 4	0.407 4	0.184 5	0.037 5	0.516 2	0.013 5	0.424 5	0.214 3	0.093 5	0.105 5	0.078 5	0.542 3	0.250 5	0.000 3	0.064 4	0.444 3	0.000 3	0.224 5	0.231 3	0.537 4	0.001 5	0.000 3	0.126 4	0.004 3	0.308 3	0.193 3	0.244 4	0.343 5	0.228 2	0.000 5	0.441 4	0.588 3	0.000 2	0.338 4	0.275 4	0.189 4	0.030 4	0.600 4	0.000 4	0.000 3	0.378 4	0.000 5	0.108 5	0.098 4	1.000 1	0.000 1	0.096 5	0.172 4	0.144 3	0.011 5	0.125 2	0.000 2	0.000 5	0.376 4	0.000 3	0.000 2	0.000 1	0.000 2	0.000 3	0.042 5	0.141 4	0.377 3	0.051 2	0.000 3	0.483 3	0.017 4	0.000 2	0.000 1	0.000 3	0.022 5	0.000 1	0.000 3	0.065 3	0.000 3	0.000 3	0.000 4	0.000 2	0.094 4	0.000 5	0.042 3	0.000 5	0.064 5	0.000 1	0.259 3	0.089 3	0.000 2	0.000 1	0.000 4	0.022 4	0.000 1	0.000 3	0.000 3	0.000 1	0.000 4	0.018 5	0.111 5	0.000 5	0.000 4	0.278 1	0.000 1	0.444 5	0.333 4	0.333 4	0.000 1	0.000 3	0.000 3	0.000 3	0.000 2	0.000 3	0.000 5	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.267 3	0.000 1	0.184 3	0.000 1	0.000 3	0.211 4	0.000 1	0.378 2	0.000 1	0.000 1	0.063 5	0.000 5	0.275 3	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.007 5	0.105 3	0.000 3	0.032 5	0.045 3	0.198 3	0.171 4	0.028 2	0.000 2	0.000 1	0.006 3	0.000 1	0.000 1	0.000 2	0.278 2	0.000 1	0.000 2	0.000 2	0.044 4	0.000 2	0.000 2	0.000 2	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021

ScanNet Benchmark

This table lists the benchmark results for the 3D semantic label scenario.

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

PTv3 ScanNet	0.794 1	0.941 3	0.813 17	0.851 7	0.782 5	0.890 2	0.597 1	0.916 2	0.696 7	0.713 3	0.979 1	0.635 1	0.384 2	0.793 2	0.907 7	0.821 4	0.790 30	0.696 10	0.967 3	0.903 1	0.805 1
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024
PonderV2	0.785 2	0.978 1	0.800 25	0.833 21	0.788 3	0.853 15	0.545 16	0.910 5	0.713 1	0.705 4	0.979 1	0.596 6	0.390 1	0.769 11	0.832 40	0.821 4	0.792 29	0.730 1	0.975 1	0.897 4	0.785 4
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
Mix3D	0.781 3	0.964 2	0.855 1	0.843 15	0.781 6	0.858 11	0.575 6	0.831 31	0.685 13	0.714 2	0.979 1	0.594 7	0.310 26	0.801 1	0.892 15	0.841 2	0.819 4	0.723 4	0.940 13	0.887 6	0.725 22
Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann: Mix3D: Out-of-Context Data Augmentation for 3D Scenes. 3DV 2021 (Oral)
Swin3D	0.779 4	0.861 20	0.818 13	0.836 18	0.790 2	0.875 4	0.576 5	0.905 6	0.704 4	0.739 1	0.969 10	0.611 2	0.349 10	0.756 20	0.958 1	0.702 43	0.805 14	0.708 7	0.916 31	0.898 3	0.801 2

TTT-KD	0.773 5	0.646 89	0.818 13	0.809 33	0.774 8	0.878 3	0.581 2	0.943 1	0.687 11	0.704 5	0.978 4	0.607 5	0.336 15	0.775 8	0.912 5	0.838 3	0.823 2	0.694 11	0.967 3	0.899 2	0.794 3
Lisa Weijler, Muhammad Jehanzeb Mirza, Leon Sick, Can Ekkazan, Pedro Hermosilla: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models.
ResLFE_HDS	0.772 6	0.939 4	0.824 6	0.854 6	0.771 9	0.840 29	0.564 10	0.900 8	0.686 12	0.677 11	0.961 16	0.537 29	0.348 11	0.769 11	0.903 9	0.785 10	0.815 6	0.676 20	0.939 14	0.880 11	0.772 8

OctFormer	0.766 7	0.925 7	0.808 21	0.849 9	0.786 4	0.846 25	0.566 9	0.876 14	0.690 9	0.674 13	0.960 17	0.576 16	0.226 65	0.753 22	0.904 8	0.777 12	0.815 6	0.722 5	0.923 27	0.877 13	0.776 7
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
PPT-SpUNet-Joint	0.766 7	0.932 5	0.794 31	0.829 23	0.751 21	0.854 13	0.540 20	0.903 7	0.630 32	0.672 14	0.963 14	0.565 20	0.357 8	0.788 3	0.900 11	0.737 25	0.802 15	0.685 15	0.950 7	0.887 6	0.780 5
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OccuSeg+Semantic	0.764 9	0.758 57	0.796 29	0.839 17	0.746 23	0.907 1	0.562 11	0.850 23	0.680 15	0.672 14	0.978 4	0.610 3	0.335 17	0.777 6	0.819 43	0.847 1	0.830 1	0.691 13	0.972 2	0.885 8	0.727 20

CU-Hybrid Net	0.764 9	0.924 8	0.819 11	0.840 16	0.757 16	0.853 15	0.580 3	0.848 24	0.709 3	0.643 22	0.958 20	0.587 11	0.295 32	0.753 22	0.884 19	0.758 19	0.815 6	0.725 3	0.927 24	0.867 20	0.743 14

O-CNN	0.762 11	0.924 8	0.823 7	0.844 14	0.770 10	0.852 17	0.577 4	0.847 26	0.711 2	0.640 26	0.958 20	0.592 8	0.217 71	0.762 16	0.888 16	0.758 19	0.813 10	0.726 2	0.932 22	0.868 19	0.744 13
Peng-Shuai Wang, Yang Liu, Yu-Xiao Guo, Chun-Yu Sun, Xin Tong: O-CNN: Octree-based Convolutional Neural Networks for 3D Shape Analysis. SIGGRAPH 2017
OA-CNN-L_ScanNet20	0.756 12	0.783 43	0.826 5	0.858 4	0.776 7	0.837 32	0.548 15	0.896 11	0.649 24	0.675 12	0.962 15	0.586 12	0.335 17	0.771 10	0.802 47	0.770 15	0.787 32	0.691 13	0.936 17	0.880 11	0.761 10

ConDaFormer	0.755 13	0.927 6	0.822 8	0.836 18	0.801 1	0.849 20	0.516 30	0.864 20	0.651 23	0.680 10	0.958 20	0.584 14	0.282 40	0.759 18	0.855 30	0.728 27	0.802 15	0.678 17	0.880 57	0.873 18	0.756 11
Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Guisong Xia, Dacheng Tao: ConDaFormer : Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding. Neurips, 2023
PNE	0.755 13	0.786 41	0.835 4	0.834 20	0.758 14	0.849 20	0.570 8	0.836 30	0.648 25	0.668 16	0.978 4	0.581 15	0.367 6	0.683 33	0.856 28	0.804 6	0.801 19	0.678 17	0.961 5	0.889 5	0.716 27
P. Hermosilla: Point Neighborhood Embeddings.
PointTransformerV2	0.752 15	0.742 65	0.809 20	0.872 1	0.758 14	0.860 10	0.552 13	0.891 12	0.610 39	0.687 6	0.960 17	0.559 23	0.304 29	0.766 14	0.926 3	0.767 16	0.797 22	0.644 31	0.942 11	0.876 16	0.722 24
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao: Point Transformer V2: Grouped Vector Attention and Partition-based Pooling. NeurIPS 2022
DMF-Net	0.752 15	0.906 12	0.793 33	0.802 39	0.689 38	0.825 44	0.556 12	0.867 16	0.681 14	0.602 42	0.960 17	0.555 25	0.365 7	0.779 5	0.859 25	0.747 22	0.795 26	0.717 6	0.917 30	0.856 28	0.764 9
C.Yang, Y.Yan, W.Zhao, J.Ye, X.Yang, A.Hussain, B.Dong, K.Huang: Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic Segmentation. ICONIP 2023
PointConvFormer	0.749 17	0.793 39	0.790 34	0.807 35	0.750 22	0.856 12	0.524 26	0.881 13	0.588 51	0.642 25	0.977 8	0.591 9	0.274 45	0.781 4	0.929 2	0.804 6	0.796 23	0.642 32	0.947 9	0.885 8	0.715 28
Wenxuan Wu, Qi Shan, Li Fuxin: PointConvFormer: Revenge of the Point-based Convolution.
BPNet	0.749 17	0.909 10	0.818 13	0.811 31	0.752 19	0.839 31	0.485 45	0.842 27	0.673 16	0.644 21	0.957 24	0.528 35	0.305 28	0.773 9	0.859 25	0.788 8	0.818 5	0.693 12	0.916 31	0.856 28	0.723 23
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MSP	0.748 19	0.623 92	0.804 23	0.859 3	0.745 24	0.824 46	0.501 35	0.912 4	0.690 9	0.685 8	0.956 25	0.567 19	0.320 23	0.768 13	0.918 4	0.720 32	0.802 15	0.676 20	0.921 28	0.881 10	0.779 6

StratifiedFormer	0.747 20	0.901 13	0.803 24	0.845 13	0.757 16	0.846 25	0.512 31	0.825 34	0.696 7	0.645 20	0.956 25	0.576 16	0.262 56	0.744 27	0.861 24	0.742 23	0.770 41	0.705 8	0.899 43	0.860 25	0.734 15
Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia: Stratified Transformer for 3D Point Cloud Segmentation. CVPR 2022
Virtual MVFusion	0.746 21	0.771 51	0.819 11	0.848 11	0.702 35	0.865 9	0.397 83	0.899 9	0.699 5	0.664 17	0.948 53	0.588 10	0.330 19	0.746 26	0.851 34	0.764 17	0.796 23	0.704 9	0.935 18	0.866 21	0.728 18
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
VMNet	0.746 21	0.870 18	0.838 2	0.858 4	0.729 29	0.850 19	0.501 35	0.874 15	0.587 52	0.658 18	0.956 25	0.564 21	0.299 30	0.765 15	0.900 11	0.716 35	0.812 11	0.631 37	0.939 14	0.858 26	0.709 29
Zeyu HU, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai: VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation. ICCV 2021 (Oral)
Retro-FPN	0.744 23	0.842 26	0.800 25	0.767 53	0.740 25	0.836 34	0.541 18	0.914 3	0.672 17	0.626 30	0.958 20	0.552 26	0.272 47	0.777 6	0.886 18	0.696 44	0.801 19	0.674 23	0.941 12	0.858 26	0.717 25
Peng Xiang, Xin Wen, Yu-Shen Liu, Hui Zhang, Yi Fang, Zhizhong Han: Retrospective Feature Pyramid Network for Point Cloud Semantic Segmentation. ICCV 2023
EQ-Net	0.743 24	0.620 93	0.799 28	0.849 9	0.730 28	0.822 48	0.493 42	0.897 10	0.664 18	0.681 9	0.955 28	0.562 22	0.378 3	0.760 17	0.903 9	0.738 24	0.801 19	0.673 24	0.907 35	0.877 13	0.745 12
Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya JIa: A Unified Query-based Paradigm for Point Cloud Understanding. CVPR 2022
LRPNet	0.742 25	0.816 34	0.806 22	0.807 35	0.752 19	0.828 42	0.575 6	0.839 29	0.699 5	0.637 27	0.954 34	0.520 38	0.320 23	0.755 21	0.834 38	0.760 18	0.772 38	0.676 20	0.915 33	0.862 23	0.717 25

SAT	0.742 25	0.860 21	0.765 47	0.819 26	0.769 11	0.848 22	0.533 22	0.829 32	0.663 19	0.631 29	0.955 28	0.586 12	0.274 45	0.753 22	0.896 13	0.729 26	0.760 48	0.666 26	0.921 28	0.855 30	0.733 16

LargeKernel3D	0.739 27	0.909 10	0.820 10	0.806 37	0.740 25	0.852 17	0.545 16	0.826 33	0.594 50	0.643 22	0.955 28	0.541 28	0.263 55	0.723 31	0.858 27	0.775 14	0.767 42	0.678 17	0.933 20	0.848 35	0.694 34
Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia: LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs. CVPR 2023
RPN	0.736 28	0.776 47	0.790 34	0.851 7	0.754 18	0.854 13	0.491 44	0.866 18	0.596 49	0.686 7	0.955 28	0.536 30	0.342 13	0.624 48	0.869 21	0.787 9	0.802 15	0.628 38	0.927 24	0.875 17	0.704 31

MinkowskiNet	0.736 28	0.859 22	0.818 13	0.832 22	0.709 33	0.840 29	0.521 28	0.853 22	0.660 21	0.643 22	0.951 43	0.544 27	0.286 38	0.731 29	0.893 14	0.675 53	0.772 38	0.683 16	0.874 64	0.852 33	0.727 20
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
IPCA	0.731 30	0.890 14	0.837 3	0.864 2	0.726 30	0.873 5	0.530 25	0.824 35	0.489 85	0.647 19	0.978 4	0.609 4	0.336 15	0.624 48	0.733 56	0.758 19	0.776 36	0.570 63	0.949 8	0.877 13	0.728 18

SparseConvNet	0.725 31	0.647 88	0.821 9	0.846 12	0.721 31	0.869 6	0.533 22	0.754 56	0.603 45	0.614 34	0.955 28	0.572 18	0.325 21	0.710 32	0.870 20	0.724 30	0.823 2	0.628 38	0.934 19	0.865 22	0.683 37

PointTransformer++	0.725 31	0.727 73	0.811 19	0.819 26	0.765 12	0.841 28	0.502 34	0.814 40	0.621 35	0.623 32	0.955 28	0.556 24	0.284 39	0.620 50	0.866 22	0.781 11	0.757 52	0.648 29	0.932 22	0.862 23	0.709 29

MatchingNet	0.724 33	0.812 36	0.812 18	0.810 32	0.735 27	0.834 36	0.495 41	0.860 21	0.572 59	0.602 42	0.954 34	0.512 40	0.280 42	0.757 19	0.845 36	0.725 29	0.780 34	0.606 48	0.937 16	0.851 34	0.700 33

INS-Conv-semantic	0.717 34	0.751 60	0.759 50	0.812 30	0.704 34	0.868 7	0.537 21	0.842 27	0.609 41	0.608 38	0.953 37	0.534 32	0.293 33	0.616 51	0.864 23	0.719 34	0.793 27	0.640 33	0.933 20	0.845 39	0.663 43

PointMetaBase	0.714 35	0.835 27	0.785 36	0.821 24	0.684 40	0.846 25	0.531 24	0.865 19	0.614 36	0.596 46	0.953 37	0.500 43	0.246 61	0.674 34	0.888 16	0.692 45	0.764 44	0.624 40	0.849 79	0.844 40	0.675 39

contrastBoundary	0.705 36	0.769 54	0.775 41	0.809 33	0.687 39	0.820 51	0.439 71	0.812 41	0.661 20	0.591 48	0.945 61	0.515 39	0.171 89	0.633 45	0.856 28	0.720 32	0.796 23	0.668 25	0.889 50	0.847 36	0.689 35
Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao: Contrastive Boundary Learning for Point Cloud Segmentation. CVPR2022
ClickSeg_Semantic	0.703 37	0.774 49	0.800 25	0.793 44	0.760 13	0.847 24	0.471 49	0.802 44	0.463 92	0.634 28	0.968 12	0.491 46	0.271 49	0.726 30	0.910 6	0.706 39	0.815 6	0.551 75	0.878 58	0.833 41	0.570 75

RFCR	0.702 38	0.889 15	0.745 61	0.813 29	0.672 43	0.818 55	0.493 42	0.815 39	0.623 33	0.610 36	0.947 55	0.470 55	0.249 60	0.594 54	0.848 35	0.705 40	0.779 35	0.646 30	0.892 48	0.823 47	0.611 58
Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma: Omni-Supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning. CVPR2021
One Thing One Click	0.701 39	0.825 31	0.796 29	0.723 60	0.716 32	0.832 38	0.433 73	0.816 37	0.634 30	0.609 37	0.969 10	0.418 81	0.344 12	0.559 66	0.833 39	0.715 36	0.808 13	0.560 69	0.902 40	0.847 36	0.680 38

JSENet	0.699 40	0.881 17	0.762 48	0.821 24	0.667 44	0.800 67	0.522 27	0.792 47	0.613 37	0.607 39	0.935 81	0.492 45	0.205 76	0.576 59	0.853 32	0.691 47	0.758 50	0.652 28	0.872 67	0.828 44	0.649 47
Zeyu HU, Mingmin Zhen, Xuyang BAI, Hongbo Fu, Chiew-lan Tai: JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D Point Clouds. ECCV 2020
One-Thing-One-Click	0.693 41	0.743 64	0.794 31	0.655 83	0.684 40	0.822 48	0.497 40	0.719 66	0.622 34	0.617 33	0.977 8	0.447 68	0.339 14	0.750 25	0.664 72	0.703 42	0.790 30	0.596 53	0.946 10	0.855 30	0.647 48
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
PicassoNet-II	0.692 42	0.732 69	0.772 42	0.786 45	0.677 42	0.866 8	0.517 29	0.848 24	0.509 78	0.626 30	0.952 41	0.536 30	0.225 67	0.545 72	0.704 63	0.689 50	0.810 12	0.564 68	0.903 39	0.854 32	0.729 17
Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian: Geometric feature learning for 3D meshes.
Feature_GeometricNet	0.690 43	0.884 16	0.754 54	0.795 42	0.647 51	0.818 55	0.422 75	0.802 44	0.612 38	0.604 40	0.945 61	0.462 58	0.189 84	0.563 65	0.853 32	0.726 28	0.765 43	0.632 36	0.904 37	0.821 50	0.606 62
Kangcheng Liu, Ben M. Chen: https://arxiv.org/abs/2012.09439. arXiv Preprint
FusionNet	0.688 44	0.704 78	0.741 65	0.754 57	0.656 46	0.829 40	0.501 35	0.741 61	0.609 41	0.548 56	0.950 47	0.522 37	0.371 4	0.633 45	0.756 51	0.715 36	0.771 40	0.623 41	0.861 75	0.814 53	0.658 44
Feihu Zhang, Jin Fang, Benjamin Wah, Philip Torr: Deep FusionNet for Point Cloud Semantic Segmentation. ECCV 2020
Feature-Geometry Net	0.685 45	0.866 19	0.748 58	0.819 26	0.645 53	0.794 70	0.450 61	0.802 44	0.587 52	0.604 40	0.945 61	0.464 57	0.201 79	0.554 68	0.840 37	0.723 31	0.732 62	0.602 51	0.907 35	0.822 49	0.603 65

KP-FCNN	0.684 46	0.847 25	0.758 52	0.784 47	0.647 51	0.814 58	0.473 48	0.772 50	0.605 43	0.594 47	0.935 81	0.450 66	0.181 87	0.587 55	0.805 46	0.690 48	0.785 33	0.614 44	0.882 54	0.819 51	0.632 54
H. Thomas, C. Qi, J. Deschaud, B. Marcotegui, F. Goulette, L. Guibas.: KPConv: Flexible and Deformable Convolution for Point Clouds. ICCV 2019
VACNN++	0.684 46	0.728 72	0.757 53	0.776 50	0.690 36	0.804 65	0.464 54	0.816 37	0.577 58	0.587 49	0.945 61	0.508 42	0.276 44	0.671 35	0.710 61	0.663 58	0.750 56	0.589 58	0.881 55	0.832 43	0.653 46

DGNet	0.684 46	0.712 77	0.784 37	0.782 49	0.658 45	0.835 35	0.499 39	0.823 36	0.641 27	0.597 45	0.950 47	0.487 48	0.281 41	0.575 60	0.619 76	0.647 66	0.764 44	0.620 43	0.871 70	0.846 38	0.688 36

Superpoint Network	0.683 49	0.851 24	0.728 69	0.800 41	0.653 48	0.806 63	0.468 51	0.804 42	0.572 59	0.602 42	0.946 58	0.453 65	0.239 64	0.519 77	0.822 41	0.689 50	0.762 47	0.595 55	0.895 46	0.827 45	0.630 55

PointContrast_LA_SEM	0.683 49	0.757 58	0.784 37	0.786 45	0.639 55	0.824 46	0.408 78	0.775 49	0.604 44	0.541 58	0.934 85	0.532 33	0.269 51	0.552 69	0.777 49	0.645 69	0.793 27	0.640 33	0.913 34	0.824 46	0.671 40

VI-PointConv	0.676 51	0.770 53	0.754 54	0.783 48	0.621 59	0.814 58	0.552 13	0.758 54	0.571 61	0.557 54	0.954 34	0.529 34	0.268 53	0.530 75	0.682 67	0.675 53	0.719 65	0.603 50	0.888 51	0.833 41	0.665 42
Xingyi Li, Wenxuan Wu, Xiaoli Z. Fern, Li Fuxin: The Devils in the Point Clouds: Studying the Robustness of Point Cloud Convolutions.
ROSMRF3D	0.673 52	0.789 40	0.748 58	0.763 55	0.635 57	0.814 58	0.407 80	0.747 58	0.581 56	0.573 51	0.950 47	0.484 49	0.271 49	0.607 52	0.754 52	0.649 63	0.774 37	0.596 53	0.883 53	0.823 47	0.606 62

SALANet	0.670 53	0.816 34	0.770 45	0.768 52	0.652 49	0.807 62	0.451 58	0.747 58	0.659 22	0.545 57	0.924 91	0.473 54	0.149 99	0.571 62	0.811 45	0.635 72	0.746 57	0.623 41	0.892 48	0.794 66	0.570 75

O3DSeg	0.668 54	0.822 32	0.771 44	0.496 103	0.651 50	0.833 37	0.541 18	0.761 53	0.555 67	0.611 35	0.966 13	0.489 47	0.370 5	0.388 97	0.580 79	0.776 13	0.751 54	0.570 63	0.956 6	0.817 52	0.646 49

PointConv	0.666 55	0.781 44	0.759 50	0.699 68	0.644 54	0.822 48	0.475 47	0.779 48	0.564 64	0.504 74	0.953 37	0.428 75	0.203 78	0.586 57	0.754 52	0.661 59	0.753 53	0.588 59	0.902 40	0.813 55	0.642 50
Wenxuan Wu, Zhongang Qi, Li Fuxin: PointConv: Deep Convolutional Networks on 3D Point Clouds. CVPR 2019
PointASNL	0.666 55	0.703 79	0.781 39	0.751 59	0.655 47	0.830 39	0.471 49	0.769 51	0.474 88	0.537 60	0.951 43	0.475 53	0.279 43	0.635 43	0.698 66	0.675 53	0.751 54	0.553 74	0.816 86	0.806 57	0.703 32
Xu Yan, Chaoda Zheng, Zhen Li, Sheng Wang, Shuguang Cui: PointASNL: Robust Point Clouds Processing using Nonlocal Neural Networks with Adaptive Sampling. CVPR 2020
PPCNN++	0.663 57	0.746 62	0.708 72	0.722 61	0.638 56	0.820 51	0.451 58	0.566 94	0.599 47	0.541 58	0.950 47	0.510 41	0.313 25	0.648 40	0.819 43	0.616 77	0.682 80	0.590 57	0.869 71	0.810 56	0.656 45
Pyunghwan Ahn, Juyoung Yang, Eojindl Yi, Chanho Lee, Junmo Kim: Projection-based Point Convolution for Efficient Point Cloud Segmentation. IEEE Access
MVF-GNN	0.658 58	0.558 100	0.751 56	0.655 83	0.690 36	0.722 92	0.453 57	0.867 16	0.579 57	0.576 50	0.893 103	0.523 36	0.293 33	0.733 28	0.571 81	0.692 45	0.659 87	0.606 48	0.875 61	0.804 59	0.668 41

DCM-Net	0.658 58	0.778 45	0.702 75	0.806 37	0.619 60	0.813 61	0.468 51	0.693 74	0.494 81	0.524 66	0.941 73	0.449 67	0.298 31	0.510 79	0.821 42	0.675 53	0.727 64	0.568 66	0.826 84	0.803 60	0.637 52
Jonas Schult, Francis Engelmann, Theodora Kontogianni, Bastian Leibe: DualConvMesh-Net: Joint Geodesic and Euclidean Convolutions on 3D Meshes. CVPR 2020 [Oral]
HPGCNN	0.656 60	0.698 81	0.743 63	0.650 85	0.564 77	0.820 51	0.505 33	0.758 54	0.631 31	0.479 78	0.945 61	0.480 51	0.226 65	0.572 61	0.774 50	0.690 48	0.735 60	0.614 44	0.853 78	0.776 81	0.597 68
Jisheng Dang, Qingyong Hu, Yulan Guo, Jun Yang: HPGCNN.
SAFNet-seg	0.654 61	0.752 59	0.734 67	0.664 81	0.583 72	0.815 57	0.399 82	0.754 56	0.639 28	0.535 62	0.942 71	0.470 55	0.309 27	0.665 36	0.539 83	0.650 62	0.708 70	0.635 35	0.857 77	0.793 68	0.642 50
Linqing Zhao, Jiwen Lu, Jie Zhou: Similarity-Aware Fusion Network for 3D Semantic Segmentation. IROS 2021
RandLA-Net	0.645 62	0.778 45	0.731 68	0.699 68	0.577 73	0.829 40	0.446 63	0.736 62	0.477 87	0.523 68	0.945 61	0.454 62	0.269 51	0.484 87	0.749 55	0.618 75	0.738 58	0.599 52	0.827 83	0.792 71	0.621 57

PointConv-SFPN	0.641 63	0.776 47	0.703 74	0.721 62	0.557 80	0.826 43	0.451 58	0.672 79	0.563 65	0.483 77	0.943 70	0.425 78	0.162 94	0.644 41	0.726 57	0.659 60	0.709 69	0.572 62	0.875 61	0.786 76	0.559 81

MVPNet	0.641 63	0.831 28	0.715 70	0.671 78	0.590 68	0.781 76	0.394 84	0.679 76	0.642 26	0.553 55	0.937 78	0.462 58	0.256 57	0.649 39	0.406 97	0.626 73	0.691 77	0.666 26	0.877 59	0.792 71	0.608 61
Maximilian Jaritz, Jiayuan Gu, Hao Su: Multi-view PointNet for 3D Scene Understanding. GMDL Workshop, ICCV 2019
PointMRNet	0.640 65	0.717 76	0.701 76	0.692 71	0.576 74	0.801 66	0.467 53	0.716 67	0.563 65	0.459 84	0.953 37	0.429 74	0.169 91	0.581 58	0.854 31	0.605 78	0.710 67	0.550 76	0.894 47	0.793 68	0.575 73

FPConv	0.639 66	0.785 42	0.760 49	0.713 66	0.603 63	0.798 68	0.392 85	0.534 99	0.603 45	0.524 66	0.948 53	0.457 60	0.250 59	0.538 73	0.723 59	0.598 82	0.696 75	0.614 44	0.872 67	0.799 61	0.567 78
Yiqun Lin, Zizheng Yan, Haibin Huang, Dong Du, Ligang Liu, Shuguang Cui, Xiaoguang Han: FPConv: Learning Local Flattening for Point Convolution. CVPR 2020
PD-Net	0.638 67	0.797 38	0.769 46	0.641 91	0.590 68	0.820 51	0.461 55	0.537 98	0.637 29	0.536 61	0.947 55	0.388 88	0.206 75	0.656 37	0.668 70	0.647 66	0.732 62	0.585 60	0.868 72	0.793 68	0.473 101

PointSPNet	0.637 68	0.734 68	0.692 83	0.714 65	0.576 74	0.797 69	0.446 63	0.743 60	0.598 48	0.437 89	0.942 71	0.403 84	0.150 98	0.626 47	0.800 48	0.649 63	0.697 74	0.557 72	0.846 80	0.777 80	0.563 79

SConv	0.636 69	0.830 29	0.697 79	0.752 58	0.572 76	0.780 78	0.445 65	0.716 67	0.529 71	0.530 63	0.951 43	0.446 69	0.170 90	0.507 82	0.666 71	0.636 71	0.682 80	0.541 82	0.886 52	0.799 61	0.594 69

Supervoxel-CNN	0.635 70	0.656 86	0.711 71	0.719 63	0.613 61	0.757 87	0.444 68	0.765 52	0.534 70	0.566 52	0.928 89	0.478 52	0.272 47	0.636 42	0.531 85	0.664 57	0.645 91	0.508 89	0.864 74	0.792 71	0.611 58

joint point-based	0.634 71	0.614 94	0.778 40	0.667 80	0.633 58	0.825 44	0.420 76	0.804 42	0.467 90	0.561 53	0.951 43	0.494 44	0.291 35	0.566 63	0.458 92	0.579 88	0.764 44	0.559 71	0.838 81	0.814 53	0.598 67
Hung-Yueh Chiang, Yen-Liang Lin, Yueh-Cheng Liu, Winston H. Hsu: A Unified Point-Based Framework for 3D Segmentation. 3DV 2019
PointMTL	0.632 72	0.731 70	0.688 86	0.675 75	0.591 67	0.784 75	0.444 68	0.565 95	0.610 39	0.492 75	0.949 51	0.456 61	0.254 58	0.587 55	0.706 62	0.599 81	0.665 86	0.612 47	0.868 72	0.791 74	0.579 72

3DSM_DMMF	0.631 73	0.626 91	0.745 61	0.801 40	0.607 62	0.751 88	0.506 32	0.729 65	0.565 63	0.491 76	0.866 106	0.434 70	0.197 82	0.595 53	0.630 75	0.709 38	0.705 72	0.560 69	0.875 61	0.740 91	0.491 96

PointNet2-SFPN	0.631 73	0.771 51	0.692 83	0.672 76	0.524 85	0.837 32	0.440 70	0.706 72	0.538 69	0.446 86	0.944 67	0.421 80	0.219 70	0.552 69	0.751 54	0.591 84	0.737 59	0.543 81	0.901 42	0.768 83	0.557 82

APCF-Net	0.631 73	0.742 65	0.687 88	0.672 76	0.557 80	0.792 73	0.408 78	0.665 80	0.545 68	0.508 71	0.952 41	0.428 75	0.186 85	0.634 44	0.702 64	0.620 74	0.706 71	0.555 73	0.873 65	0.798 63	0.581 71
Haojia, Lin: Adaptive Pyramid Context Fusion for Point Cloud Perception. GRSL
FusionAwareConv	0.630 76	0.604 96	0.741 65	0.766 54	0.590 68	0.747 89	0.501 35	0.734 63	0.503 80	0.527 64	0.919 95	0.454 62	0.323 22	0.550 71	0.420 96	0.678 52	0.688 78	0.544 79	0.896 45	0.795 65	0.627 56
Jiazhao Zhang, Chenyang Zhu, Lintao Zheng, Kai Xu: Fusion-Aware Point Convolution for Online Semantic 3D Scene Segmentation. CVPR 2020
DenSeR	0.628 77	0.800 37	0.625 99	0.719 63	0.545 82	0.806 63	0.445 65	0.597 88	0.448 95	0.519 69	0.938 77	0.481 50	0.328 20	0.489 86	0.499 90	0.657 61	0.759 49	0.592 56	0.881 55	0.797 64	0.634 53

SegGroup_sem	0.627 78	0.818 33	0.747 60	0.701 67	0.602 64	0.764 84	0.385 89	0.629 85	0.490 83	0.508 71	0.931 88	0.409 83	0.201 79	0.564 64	0.725 58	0.618 75	0.692 76	0.539 83	0.873 65	0.794 66	0.548 85
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
SIConv	0.625 79	0.830 29	0.694 81	0.757 56	0.563 78	0.772 82	0.448 62	0.647 83	0.520 74	0.509 70	0.949 51	0.431 73	0.191 83	0.496 84	0.614 77	0.647 66	0.672 84	0.535 85	0.876 60	0.783 77	0.571 74

dtc_net	0.625 79	0.703 79	0.751 56	0.794 43	0.535 83	0.848 22	0.480 46	0.676 78	0.528 72	0.469 81	0.944 67	0.454 62	0.004 112	0.464 89	0.636 74	0.704 41	0.758 50	0.548 78	0.924 26	0.787 75	0.492 95

HPEIN	0.618 81	0.729 71	0.668 89	0.647 87	0.597 66	0.766 83	0.414 77	0.680 75	0.520 74	0.525 65	0.946 58	0.432 71	0.215 72	0.493 85	0.599 78	0.638 70	0.617 96	0.570 63	0.897 44	0.806 57	0.605 64
Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi-Wing Fu, Jiaya Jia: Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation. ICCV 2019
SPH3D-GCN	0.610 82	0.858 23	0.772 42	0.489 104	0.532 84	0.792 73	0.404 81	0.643 84	0.570 62	0.507 73	0.935 81	0.414 82	0.046 109	0.510 79	0.702 64	0.602 80	0.705 72	0.549 77	0.859 76	0.773 82	0.534 88
Huan Lei, Naveed Akhtar, and Ajmal Mian: Spherical Kernel for Efficient Graph Convolution on 3D Point Clouds. TPAMI 2020
AttAN	0.609 83	0.760 56	0.667 90	0.649 86	0.521 86	0.793 71	0.457 56	0.648 82	0.528 72	0.434 91	0.947 55	0.401 85	0.153 97	0.454 90	0.721 60	0.648 65	0.717 66	0.536 84	0.904 37	0.765 84	0.485 97
Gege Zhang, Qinghua Ma, Licheng Jiao, Fang Liu and Qigong Sun: AttAN: Attention Adversarial Networks for 3D Point Cloud Semantic Segmentation. IJCAI2020
wsss-transformer	0.600 84	0.634 90	0.743 63	0.697 70	0.601 65	0.781 76	0.437 72	0.585 91	0.493 82	0.446 86	0.933 86	0.394 86	0.011 111	0.654 38	0.661 73	0.603 79	0.733 61	0.526 86	0.832 82	0.761 86	0.480 98

LAP-D	0.594 85	0.720 74	0.692 83	0.637 92	0.456 96	0.773 81	0.391 87	0.730 64	0.587 52	0.445 88	0.940 75	0.381 89	0.288 36	0.434 93	0.453 94	0.591 84	0.649 89	0.581 61	0.777 90	0.749 90	0.610 60

DPC	0.592 86	0.720 74	0.700 77	0.602 96	0.480 92	0.762 86	0.380 90	0.713 70	0.585 55	0.437 89	0.940 75	0.369 91	0.288 36	0.434 93	0.509 89	0.590 86	0.639 94	0.567 67	0.772 92	0.755 88	0.592 70
Francis Engelmann, Theodora Kontogianni, Bastian Leibe: Dilated Point Convolutions: On the Receptive Field Size of Point Convolutions on 3D Point Clouds. ICRA 2020
CCRFNet	0.589 87	0.766 55	0.659 94	0.683 73	0.470 95	0.740 91	0.387 88	0.620 87	0.490 83	0.476 79	0.922 93	0.355 94	0.245 62	0.511 78	0.511 88	0.571 89	0.643 92	0.493 93	0.872 67	0.762 85	0.600 66

ROSMRF	0.580 88	0.772 50	0.707 73	0.681 74	0.563 78	0.764 84	0.362 92	0.515 100	0.465 91	0.465 83	0.936 80	0.427 77	0.207 74	0.438 91	0.577 80	0.536 92	0.675 83	0.486 94	0.723 98	0.779 78	0.524 91

SD-DETR	0.576 89	0.746 62	0.609 103	0.445 108	0.517 87	0.643 103	0.366 91	0.714 69	0.456 93	0.468 82	0.870 105	0.432 71	0.264 54	0.558 67	0.674 68	0.586 87	0.688 78	0.482 95	0.739 96	0.733 93	0.537 87

SQN_0.1%	0.569 90	0.676 83	0.696 80	0.657 82	0.497 88	0.779 79	0.424 74	0.548 96	0.515 76	0.376 96	0.902 102	0.422 79	0.357 8	0.379 98	0.456 93	0.596 83	0.659 87	0.544 79	0.685 101	0.665 104	0.556 83

TextureNet	0.566 91	0.672 85	0.664 91	0.671 78	0.494 90	0.719 93	0.445 65	0.678 77	0.411 101	0.396 94	0.935 81	0.356 93	0.225 67	0.412 95	0.535 84	0.565 90	0.636 95	0.464 97	0.794 89	0.680 101	0.568 77
Jingwei Huang, Haotian Zhang, Li Yi, Thomas Funkerhouser, Matthias Niessner, Leonidas Guibas: TextureNet: Consistent Local Parametrizations for Learning from High-Resolution Signals on Meshes. CVPR
DVVNet	0.562 92	0.648 87	0.700 77	0.770 51	0.586 71	0.687 97	0.333 96	0.650 81	0.514 77	0.475 80	0.906 99	0.359 92	0.223 69	0.340 100	0.442 95	0.422 103	0.668 85	0.501 90	0.708 99	0.779 78	0.534 88

Pointnet++ & Feature	0.557 93	0.735 67	0.661 93	0.686 72	0.491 91	0.744 90	0.392 85	0.539 97	0.451 94	0.375 97	0.946 58	0.376 90	0.205 76	0.403 96	0.356 100	0.553 91	0.643 92	0.497 91	0.824 85	0.756 87	0.515 92

GMLPs	0.538 94	0.495 105	0.693 82	0.647 87	0.471 94	0.793 71	0.300 99	0.477 101	0.505 79	0.358 99	0.903 101	0.327 97	0.081 106	0.472 88	0.529 86	0.448 101	0.710 67	0.509 87	0.746 94	0.737 92	0.554 84

PanopticFusion-label	0.529 95	0.491 106	0.688 86	0.604 95	0.386 101	0.632 104	0.225 109	0.705 73	0.434 98	0.293 105	0.815 107	0.348 95	0.241 63	0.499 83	0.669 69	0.507 94	0.649 89	0.442 103	0.796 88	0.602 108	0.561 80
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
subcloud_weak	0.516 96	0.676 83	0.591 106	0.609 93	0.442 97	0.774 80	0.335 95	0.597 88	0.422 100	0.357 100	0.932 87	0.341 96	0.094 105	0.298 102	0.528 87	0.473 99	0.676 82	0.495 92	0.602 107	0.721 96	0.349 108

Online SegFusion	0.515 97	0.607 95	0.644 97	0.579 98	0.434 98	0.630 105	0.353 93	0.628 86	0.440 96	0.410 92	0.762 111	0.307 99	0.167 92	0.520 76	0.403 98	0.516 93	0.565 99	0.447 101	0.678 102	0.701 98	0.514 93
Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstroem, Cristian Sminchisescu, Luc van Gool: A Real-Time Learning Framework for Joint 3D Reconstruction and Semantic Segmentation. Robotics and Automation Letters Submission
3DMV, FTSDF	0.501 98	0.558 100	0.608 104	0.424 110	0.478 93	0.690 96	0.246 105	0.586 90	0.468 89	0.450 85	0.911 97	0.394 86	0.160 95	0.438 91	0.212 107	0.432 102	0.541 105	0.475 96	0.742 95	0.727 94	0.477 99

PCNN	0.498 99	0.559 99	0.644 97	0.560 100	0.420 100	0.711 95	0.229 107	0.414 102	0.436 97	0.352 101	0.941 73	0.324 98	0.155 96	0.238 107	0.387 99	0.493 95	0.529 106	0.509 87	0.813 87	0.751 89	0.504 94

Weakly-Openseg v3	0.489 100	0.749 61	0.664 91	0.646 89	0.496 89	0.559 109	0.122 112	0.577 92	0.257 112	0.364 98	0.805 108	0.198 110	0.096 104	0.510 79	0.496 91	0.361 107	0.563 100	0.359 110	0.777 90	0.644 105	0.532 90

3DMV	0.484 101	0.484 107	0.538 108	0.643 90	0.424 99	0.606 108	0.310 97	0.574 93	0.433 99	0.378 95	0.796 109	0.301 100	0.214 73	0.537 74	0.208 108	0.472 100	0.507 109	0.413 106	0.693 100	0.602 108	0.539 86
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
PointCNN with RGB	0.458 102	0.577 98	0.611 102	0.356 112	0.321 109	0.715 94	0.299 101	0.376 106	0.328 108	0.319 103	0.944 67	0.285 102	0.164 93	0.216 110	0.229 105	0.484 97	0.545 104	0.456 99	0.755 93	0.709 97	0.475 100
Yangyan Li, Rui Bu, Mingchao Sun, Baoquan Chen: PointCNN. NeurIPS 2018
FCPN	0.447 103	0.679 82	0.604 105	0.578 99	0.380 102	0.682 98	0.291 102	0.106 112	0.483 86	0.258 110	0.920 94	0.258 106	0.025 110	0.231 109	0.325 101	0.480 98	0.560 102	0.463 98	0.725 97	0.666 103	0.231 112
Dario Rethage, Johanna Wald, Jürgen Sturm, Nassir Navab, Federico Tombari: Fully-Convolutional Point Networks for Large-Scale Point Clouds. ECCV 2018
DGCNN_reproduce	0.446 104	0.474 108	0.623 100	0.463 106	0.366 104	0.651 101	0.310 97	0.389 105	0.349 106	0.330 102	0.937 78	0.271 104	0.126 101	0.285 103	0.224 106	0.350 109	0.577 98	0.445 102	0.625 105	0.723 95	0.394 104
Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E. Sarma, Michael M. Bronstein, Justin M. Solomon: Dynamic Graph CNN for Learning on Point Clouds. TOG 2019
PNET2	0.442 105	0.548 102	0.548 107	0.597 97	0.363 105	0.628 106	0.300 99	0.292 107	0.374 103	0.307 104	0.881 104	0.268 105	0.186 85	0.238 107	0.204 109	0.407 104	0.506 110	0.449 100	0.667 103	0.620 107	0.462 102

SurfaceConvPF	0.442 105	0.505 104	0.622 101	0.380 111	0.342 107	0.654 100	0.227 108	0.397 104	0.367 104	0.276 107	0.924 91	0.240 107	0.198 81	0.359 99	0.262 103	0.366 105	0.581 97	0.435 104	0.640 104	0.668 102	0.398 103
Hao Pan, Shilin Liu, Yang Liu, Xin Tong: Convolutional Neural Networks on 3D Surfaces Using Parallel Frames.
Tangent Convolutions	0.438 107	0.437 110	0.646 96	0.474 105	0.369 103	0.645 102	0.353 93	0.258 109	0.282 110	0.279 106	0.918 96	0.298 101	0.147 100	0.283 104	0.294 102	0.487 96	0.562 101	0.427 105	0.619 106	0.633 106	0.352 107
Maxim Tatarchenko, Jaesik Park, Vladlen Koltun, Qian-Yi Zhou: Tangent convolutions for dense prediction in 3d. CVPR 2018
3DWSSS	0.425 108	0.525 103	0.647 95	0.522 101	0.324 108	0.488 112	0.077 113	0.712 71	0.353 105	0.401 93	0.636 113	0.281 103	0.176 88	0.340 100	0.565 82	0.175 113	0.551 103	0.398 107	0.370 113	0.602 108	0.361 106

SPLAT Net	0.393 109	0.472 109	0.511 109	0.606 94	0.311 110	0.656 99	0.245 106	0.405 103	0.328 108	0.197 111	0.927 90	0.227 109	0.000 114	0.001 114	0.249 104	0.271 112	0.510 107	0.383 109	0.593 108	0.699 99	0.267 110
Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz: SPLATNet: Sparse Lattice Networks for Point Cloud Processing. CVPR 2018
ScanNet+FTSDF	0.383 110	0.297 112	0.491 110	0.432 109	0.358 106	0.612 107	0.274 103	0.116 111	0.411 101	0.265 108	0.904 100	0.229 108	0.079 107	0.250 105	0.185 110	0.320 110	0.510 107	0.385 108	0.548 109	0.597 111	0.394 104

PointNet++	0.339 111	0.584 97	0.478 111	0.458 107	0.256 112	0.360 113	0.250 104	0.247 110	0.278 111	0.261 109	0.677 112	0.183 111	0.117 102	0.212 111	0.145 112	0.364 106	0.346 113	0.232 113	0.548 109	0.523 112	0.252 111
Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas: pointnet++: deep hierarchical feature learning on point sets in a metric space.
SSC-UNet	0.308 112	0.353 111	0.290 113	0.278 113	0.166 113	0.553 110	0.169 111	0.286 108	0.147 113	0.148 113	0.908 98	0.182 112	0.064 108	0.023 113	0.018 114	0.354 108	0.363 111	0.345 111	0.546 111	0.685 100	0.278 109

ScanNet	0.306 113	0.203 113	0.366 112	0.501 102	0.311 110	0.524 111	0.211 110	0.002 114	0.342 107	0.189 112	0.786 110	0.145 113	0.102 103	0.245 106	0.152 111	0.318 111	0.348 112	0.300 112	0.460 112	0.437 113	0.182 113
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17
ERROR	0.054 114	0.000 114	0.041 114	0.172 114	0.030 114	0.062 114	0.001 114	0.035 113	0.004 114	0.051 114	0.143 114	0.019 114	0.003 113	0.041 112	0.050 113	0.003 114	0.054 114	0.018 114	0.005 114	0.264 114	0.082 114

This table lists the benchmark results for the 3D semantic instance scenario.

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

Spherical Mask(CtoF)	0.616 1	0.946 3	0.654 9	0.555 4	0.434 7	0.769 3	0.271 6	0.604 7	0.447 3	0.505 4	0.549 1	0.698 1	0.716 1	0.775 10	0.480 5	0.747 3	0.575 6	0.925 7	0.436 3

ExtMask3D	0.598 2	0.852 12	0.692 4	0.433 22	0.461 4	0.791 1	0.264 7	0.488 29	0.493 1	0.508 3	0.528 9	0.594 6	0.706 3	0.791 5	0.483 3	0.734 6	0.595 2	0.911 11	0.437 2

MAFT	0.596 3	0.889 9	0.721 1	0.448 16	0.460 5	0.768 4	0.251 8	0.558 16	0.408 4	0.504 5	0.539 5	0.616 4	0.618 7	0.858 2	0.482 4	0.684 13	0.551 10	0.931 6	0.450 1

UniPerception	0.588 4	0.963 2	0.667 7	0.493 9	0.472 3	0.750 7	0.229 11	0.528 22	0.468 2	0.498 7	0.542 3	0.643 2	0.530 16	0.661 30	0.463 10	0.695 12	0.599 1	0.972 1	0.420 5

Queryformer	0.583 5	0.926 5	0.702 2	0.393 28	0.504 1	0.733 13	0.276 5	0.527 23	0.373 10	0.479 8	0.534 7	0.533 15	0.697 4	0.720 22	0.436 14	0.745 4	0.592 3	0.958 3	0.363 14

SIM3D	0.575 6	0.889 9	0.675 6	0.284 44	0.401 12	0.762 6	0.329 2	0.531 21	0.408 5	0.521 2	0.541 4	0.587 7	0.646 5	0.744 18	0.467 8	0.665 15	0.579 5	0.886 21	0.425 4

PBNet	0.573 7	0.926 5	0.575 18	0.619 1	0.472 2	0.736 11	0.239 10	0.487 30	0.383 9	0.459 11	0.506 12	0.533 14	0.585 9	0.767 11	0.404 16	0.717 7	0.559 9	0.969 2	0.381 10
W.Zhao, Y.Yan, C.Yang, J.Ye,X.Yang,K.Huang: Divide and Conquer: 3D Instance Segmentation With Point-Wise Binarization. ICCV 2023
TST3D	0.569 8	0.778 19	0.675 5	0.598 2	0.451 6	0.727 14	0.280 4	0.476 32	0.395 6	0.472 9	0.457 20	0.583 8	0.580 11	0.777 7	0.462 12	0.735 5	0.547 12	0.919 9	0.333 20

Mask3D	0.566 9	0.926 5	0.597 13	0.408 25	0.420 10	0.737 10	0.239 9	0.598 9	0.386 8	0.458 12	0.549 1	0.568 12	0.716 1	0.601 36	0.480 5	0.646 18	0.575 6	0.922 8	0.364 13
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
OneFormer3D	0.566 9	0.781 18	0.697 3	0.562 3	0.431 8	0.770 2	0.331 1	0.400 38	0.373 11	0.529 1	0.504 13	0.568 11	0.475 21	0.732 20	0.470 7	0.762 1	0.550 11	0.871 27	0.379 11
Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: OneFormer3D: One Transformer for Unified Point Cloud Segmentation.
ISBNet	0.559 11	0.939 4	0.655 8	0.383 31	0.426 9	0.763 5	0.180 13	0.534 20	0.386 7	0.499 6	0.509 11	0.621 3	0.427 31	0.704 25	0.467 9	0.649 17	0.571 8	0.948 4	0.401 6
Tuan Duc Ngo, Binh-Son Hua, Khoi Nguyen: ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution. CVPR 2023
GraphCut	0.552 12	1.000 1	0.611 12	0.438 19	0.392 14	0.714 15	0.139 16	0.598 10	0.327 14	0.389 15	0.510 10	0.598 5	0.427 32	0.754 14	0.463 11	0.761 2	0.588 4	0.903 14	0.329 21

SPFormer	0.549 13	0.745 22	0.640 10	0.484 10	0.395 13	0.739 9	0.311 3	0.566 14	0.335 13	0.468 10	0.492 14	0.555 13	0.478 20	0.747 16	0.436 13	0.712 8	0.540 13	0.893 18	0.343 19
Sun Jiahao, Qing Chunmei, Tan Junpeng, Xu Xiangmin: Superpoint Transformer for 3D Scene Instance Segmentation. AAAI 2023 [Oral]
DKNet	0.532 14	0.815 15	0.624 11	0.517 6	0.377 16	0.749 8	0.107 18	0.509 26	0.304 16	0.437 13	0.475 15	0.581 9	0.539 14	0.775 9	0.339 21	0.640 20	0.506 16	0.901 15	0.385 9
Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong: 3D Instances as 1D Kernels. ECCV 2022
IPCA-Inst	0.520 15	0.889 9	0.551 22	0.548 5	0.418 11	0.665 25	0.064 27	0.585 11	0.260 24	0.277 29	0.471 17	0.500 16	0.644 6	0.785 6	0.369 17	0.591 26	0.511 14	0.878 24	0.362 15

SoftGroup++	0.513 16	0.704 28	0.578 17	0.398 27	0.363 22	0.704 16	0.061 28	0.647 4	0.297 21	0.378 18	0.537 6	0.343 19	0.614 8	0.828 4	0.295 26	0.710 10	0.505 18	0.875 26	0.394 7

SSTNet	0.506 17	0.738 25	0.549 23	0.497 8	0.316 27	0.693 19	0.178 14	0.377 41	0.198 30	0.330 20	0.463 19	0.576 10	0.515 17	0.857 3	0.494 1	0.637 21	0.457 22	0.943 5	0.290 30
Zhihao Liang, Zhihao Li, Songcen Xu, Mingkui Tan, Kui Jia: Instance Segmentation in 3D Scenes using Semantic Superpoint Tree Networks. ICCV2021
SoftGroup	0.504 18	0.667 35	0.579 15	0.372 33	0.381 15	0.694 18	0.072 24	0.677 2	0.303 17	0.387 16	0.531 8	0.319 23	0.582 10	0.754 13	0.318 22	0.643 19	0.492 19	0.907 13	0.388 8
Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo: SoftGroup for 3D Instance Segmentaiton on Point Clouds. CVPR 2022 [Oral]
DANCENET	0.504 18	0.926 5	0.579 14	0.472 12	0.367 19	0.626 35	0.165 15	0.432 33	0.221 26	0.408 14	0.449 22	0.411 17	0.564 12	0.746 17	0.421 15	0.707 11	0.438 25	0.846 35	0.288 31

TD3D	0.489 20	0.852 12	0.511 32	0.434 20	0.322 26	0.735 12	0.101 21	0.512 25	0.355 12	0.349 19	0.468 18	0.283 27	0.514 18	0.676 29	0.268 31	0.671 14	0.510 15	0.908 12	0.329 22
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
OccuSeg+instance	0.486 21	0.802 17	0.536 25	0.428 23	0.369 18	0.702 17	0.205 12	0.331 46	0.301 18	0.379 17	0.474 16	0.327 20	0.437 26	0.862 1	0.485 2	0.601 24	0.394 33	0.846 37	0.273 34
Lei Han, Tian Zheng, Lan Xu, Lu Fang: OccuSeg: Occupancy-aware 3D Instance Segmentation. CVPR2020
TopoSeg	0.479 22	0.704 28	0.564 19	0.467 14	0.366 20	0.633 33	0.068 25	0.554 17	0.262 23	0.328 21	0.447 23	0.323 21	0.534 15	0.722 21	0.288 28	0.614 22	0.482 20	0.912 10	0.358 17

DualGroup	0.469 23	0.815 15	0.552 21	0.398 26	0.374 17	0.683 21	0.130 17	0.539 19	0.310 15	0.327 22	0.407 26	0.276 28	0.447 25	0.535 40	0.342 20	0.659 16	0.455 23	0.900 17	0.301 26

SSEC	0.465 24	0.667 35	0.578 16	0.502 7	0.362 23	0.641 32	0.035 37	0.605 6	0.291 22	0.323 23	0.451 21	0.296 25	0.417 35	0.677 28	0.245 35	0.501 44	0.506 17	0.900 16	0.366 12

HAIS	0.457 25	0.704 28	0.561 20	0.457 15	0.364 21	0.673 22	0.046 36	0.547 18	0.194 31	0.308 24	0.426 24	0.288 26	0.454 24	0.711 23	0.262 32	0.563 34	0.434 27	0.889 20	0.344 18
Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang: Hierarchical Aggregation for 3D Instance Segmentation. ICCV 2021
DD-UNet+Group	0.436 26	0.630 43	0.508 35	0.480 11	0.310 29	0.624 37	0.065 26	0.638 5	0.174 32	0.256 33	0.384 30	0.194 40	0.428 29	0.759 12	0.289 27	0.574 31	0.400 31	0.849 34	0.291 29
H. Liu, R. Liu, K. Yang, J. Zhang, K. Peng, R. Stiefelhagen: HIDA: Towards Holistic Indoor Understanding for the Visually Impaired via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor. ICCVW 2021
INS-Conv-instance	0.435 27	0.716 27	0.495 37	0.355 35	0.331 24	0.689 20	0.102 20	0.394 40	0.208 29	0.280 27	0.395 28	0.250 31	0.544 13	0.741 19	0.309 24	0.536 40	0.391 34	0.842 40	0.258 38

Mask-Group	0.434 28	0.778 19	0.516 30	0.471 13	0.330 25	0.658 26	0.029 39	0.526 24	0.249 25	0.256 32	0.400 27	0.309 24	0.384 39	0.296 56	0.368 18	0.575 30	0.425 28	0.877 25	0.362 16
Min Zhong, Xinghao Chen, Xiaokang Chen, Gang Zeng, Yunhe Wang: MaskGroup: Hierarchical Point Grouping and Masking for 3D Instance Segmentation. ICME 2022
Box2Mask	0.433 29	0.741 23	0.463 42	0.433 21	0.283 32	0.625 36	0.103 19	0.298 51	0.125 41	0.260 31	0.424 25	0.322 22	0.472 22	0.701 26	0.363 19	0.711 9	0.309 50	0.882 22	0.272 36
Julian Chibane, Francis Engelmann, Tuan Anh Tran, Gerard Pons-Moll: Box2Mask: Weakly Supervised 3D Semantic Instance Segmentation Using Bounding Boxes. ECCV 2022
RPGN	0.428 30	0.630 43	0.508 34	0.367 34	0.249 39	0.658 27	0.016 47	0.673 3	0.131 39	0.234 36	0.383 31	0.270 29	0.434 27	0.748 15	0.274 30	0.609 23	0.406 30	0.842 39	0.267 37
Shichao Dong, Guosheng Lin, Tzu-Yi Hung: Learning Regional Purity for Instance Segmentation on 3D Point Clouds. ECCV 2022
DENet	0.413 31	0.741 23	0.520 27	0.237 47	0.284 31	0.523 46	0.097 22	0.691 1	0.138 36	0.209 46	0.229 48	0.238 34	0.390 37	0.707 24	0.310 23	0.448 51	0.470 21	0.892 19	0.310 24

PointGroup	0.407 32	0.639 42	0.496 36	0.415 24	0.243 41	0.645 31	0.021 44	0.570 13	0.114 42	0.211 44	0.359 33	0.217 38	0.428 30	0.660 31	0.256 33	0.562 35	0.341 42	0.860 30	0.291 28
Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia: PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation. CVPR 2020 [oral]
CSC-Pretrained	0.405 33	0.738 25	0.465 41	0.331 39	0.205 45	0.655 28	0.051 32	0.601 8	0.092 46	0.211 45	0.329 36	0.198 39	0.459 23	0.775 8	0.195 42	0.524 42	0.400 32	0.878 23	0.184 47

PE	0.396 34	0.667 35	0.467 40	0.446 18	0.243 40	0.624 38	0.022 43	0.577 12	0.106 43	0.219 39	0.340 34	0.239 33	0.487 19	0.475 47	0.225 37	0.541 39	0.350 40	0.818 42	0.273 35
Biao Zhang, Peter Wonka: Point Cloud Instance Segmentation using Probabilistic Embeddings. CVPR 2021
Dyco3D	0.395 35	0.642 41	0.518 29	0.447 17	0.259 38	0.666 24	0.050 33	0.251 56	0.166 33	0.231 37	0.362 32	0.232 35	0.331 42	0.535 39	0.229 36	0.587 27	0.438 26	0.850 32	0.317 23
Tong He; Chunhua Shen; Anton van den Hengel: DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution. CVPR2021
OSIS	0.392 36	0.778 19	0.530 26	0.220 49	0.278 33	0.567 43	0.083 23	0.330 47	0.299 19	0.270 30	0.310 39	0.143 46	0.260 46	0.624 34	0.277 29	0.568 33	0.361 38	0.865 29	0.301 25

AOIA	0.387 37	0.704 28	0.515 31	0.385 30	0.225 44	0.669 23	0.005 54	0.482 31	0.126 40	0.181 49	0.269 45	0.221 37	0.426 33	0.478 46	0.218 38	0.592 25	0.371 36	0.851 31	0.242 40

SSEN	0.384 38	0.852 12	0.494 38	0.192 50	0.226 43	0.648 30	0.022 42	0.398 39	0.299 20	0.277 28	0.317 38	0.231 36	0.194 53	0.514 43	0.196 40	0.586 28	0.444 24	0.843 38	0.184 46
Dongsu Zhang, Junha Chun, Sang Kyun Cha, Young Min Kim: Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with Deep Metric Learning. Arxiv
Mask3D_evaluation	0.382 39	0.593 45	0.520 28	0.390 29	0.314 28	0.600 39	0.018 46	0.287 54	0.151 35	0.281 26	0.387 29	0.169 44	0.429 28	0.654 32	0.172 46	0.578 29	0.384 35	0.670 53	0.278 33

PCJC	0.375 40	0.704 28	0.542 24	0.284 43	0.197 47	0.649 29	0.006 51	0.426 34	0.138 37	0.242 34	0.304 40	0.183 43	0.388 38	0.629 33	0.141 53	0.546 38	0.344 41	0.738 48	0.283 32

ClickSeg_Instance	0.366 41	0.654 39	0.375 46	0.184 51	0.302 30	0.592 41	0.050 34	0.300 50	0.093 45	0.283 25	0.277 42	0.249 32	0.426 34	0.615 35	0.299 25	0.504 43	0.367 37	0.832 41	0.191 45

SphereSeg	0.357 42	0.651 40	0.411 44	0.345 36	0.264 37	0.630 34	0.059 29	0.289 53	0.212 27	0.240 35	0.336 35	0.158 45	0.305 43	0.557 37	0.159 49	0.455 50	0.341 43	0.726 50	0.294 27

3D-MPA	0.355 43	0.457 55	0.484 39	0.299 41	0.277 34	0.591 42	0.047 35	0.332 44	0.212 28	0.217 40	0.278 41	0.193 41	0.413 36	0.410 50	0.195 41	0.574 32	0.352 39	0.849 33	0.213 43
Francis Engelmann, Martin Bokeloh, Alireza Fathi, Bastian Leibe, Matthias Nießner: 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation. CVPR 2020
NeuralBF	0.353 44	0.593 45	0.511 33	0.375 32	0.264 36	0.597 40	0.008 49	0.332 45	0.160 34	0.229 38	0.274 44	0.000 67	0.206 50	0.678 27	0.155 50	0.485 46	0.422 29	0.816 43	0.254 39
Weiwei Sun, Daniel Rebain, Renjie Liao, Vladimir Tankovich, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi: NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation on Point Clouds. WACV 2023
RWSeg	0.348 45	0.475 52	0.456 43	0.320 40	0.275 35	0.476 48	0.020 45	0.491 28	0.056 53	0.212 43	0.320 37	0.261 30	0.302 44	0.520 41	0.182 44	0.557 36	0.285 52	0.867 28	0.197 44

GICN	0.341 46	0.580 47	0.371 47	0.344 37	0.198 46	0.469 49	0.052 31	0.564 15	0.093 44	0.212 42	0.212 50	0.127 48	0.347 41	0.537 38	0.206 39	0.525 41	0.329 45	0.729 49	0.241 41

One_Thing_One_Click	0.326 47	0.472 53	0.361 48	0.232 48	0.183 48	0.555 44	0.000 60	0.498 27	0.038 55	0.195 47	0.226 49	0.362 18	0.168 54	0.469 48	0.251 34	0.553 37	0.335 44	0.846 36	0.117 55
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
Occipital-SCS	0.320 48	0.679 34	0.352 49	0.334 38	0.229 42	0.436 50	0.025 40	0.412 37	0.058 51	0.161 54	0.240 47	0.085 50	0.262 45	0.496 45	0.187 43	0.467 48	0.328 46	0.775 44	0.231 42

Sparse R-CNN	0.292 49	0.704 28	0.213 59	0.153 53	0.154 50	0.551 45	0.053 30	0.212 57	0.132 38	0.174 51	0.274 43	0.070 52	0.363 40	0.441 49	0.176 45	0.424 53	0.234 54	0.758 46	0.161 51

MTML	0.282 50	0.577 48	0.380 45	0.182 52	0.107 56	0.430 51	0.001 57	0.422 35	0.057 52	0.179 50	0.162 53	0.070 53	0.229 48	0.511 44	0.161 47	0.491 45	0.313 47	0.650 56	0.162 49
Jean Lahoud, Bernard Ghanem, Marc Pollefeys, Martin R. Oswald: 3D Instance Segmentation via Multi-task Metric Learning. ICCV 2019 [oral]
SALoss-ResNet	0.262 51	0.667 35	0.335 50	0.067 60	0.123 54	0.427 52	0.022 41	0.280 55	0.058 50	0.216 41	0.211 51	0.039 56	0.142 56	0.519 42	0.106 57	0.338 57	0.310 49	0.721 51	0.138 52
Zhidong Liang, Ming Yang, Hao Li, Chunxiang Wang: 3D Instance Embedding Learning With a Structure-Aware Loss Function for Point Cloud Segmentation. IEEE Robotics and Automation Letters (IROS2020)
MASC	0.254 52	0.463 54	0.249 58	0.113 54	0.167 49	0.412 54	0.000 59	0.374 42	0.073 47	0.173 52	0.243 46	0.130 47	0.228 49	0.368 52	0.160 48	0.356 55	0.208 55	0.711 52	0.136 53
Chen Liu, Yasutaka Furukawa: MASC: Multi-scale Affinity with Sparse Convolution for 3D Instance Segmentation.
3D-BoNet	0.253 53	0.519 50	0.324 53	0.251 46	0.137 53	0.345 59	0.031 38	0.419 36	0.069 48	0.162 53	0.131 55	0.052 54	0.202 52	0.338 54	0.147 52	0.301 60	0.303 51	0.651 55	0.178 48
Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen Wang, Andrew Markham, Niki Trigoni: Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds. NeurIPS 2019 Spotlight
SPG_WSIS	0.251 54	0.380 57	0.274 56	0.289 42	0.144 51	0.413 53	0.000 60	0.311 48	0.065 49	0.113 56	0.130 56	0.029 59	0.204 51	0.388 51	0.108 56	0.459 49	0.311 48	0.769 45	0.127 54

SegGroup_ins	0.246 55	0.556 49	0.335 51	0.062 62	0.115 55	0.490 47	0.000 60	0.297 52	0.018 59	0.186 48	0.142 54	0.083 51	0.233 47	0.216 58	0.153 51	0.469 47	0.251 53	0.744 47	0.083 58
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
PanopticFusion-inst	0.214 56	0.250 62	0.330 52	0.275 45	0.103 57	0.228 65	0.000 60	0.345 43	0.024 57	0.088 58	0.203 52	0.186 42	0.167 55	0.367 53	0.125 54	0.221 63	0.112 65	0.666 54	0.162 50
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
UNet-backbone	0.161 57	0.519 50	0.259 57	0.084 56	0.059 59	0.325 61	0.002 55	0.093 62	0.009 61	0.077 60	0.064 59	0.045 55	0.044 63	0.161 60	0.045 59	0.331 58	0.180 57	0.566 57	0.033 67

3D-SIS	0.161 57	0.407 56	0.155 64	0.068 59	0.043 63	0.346 58	0.001 56	0.134 59	0.005 62	0.088 57	0.106 58	0.037 57	0.135 58	0.321 55	0.028 63	0.339 56	0.116 64	0.466 60	0.093 57
Ji Hou, Angela Dai, Matthias Niessner: 3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. CVPR 2019
R-PointNet	0.158 59	0.356 58	0.173 62	0.113 55	0.140 52	0.359 55	0.012 48	0.023 65	0.039 54	0.134 55	0.123 57	0.008 63	0.089 59	0.149 61	0.117 55	0.221 62	0.128 62	0.563 58	0.094 56

Region-18class	0.146 60	0.175 66	0.321 54	0.080 57	0.062 58	0.357 56	0.000 60	0.307 49	0.002 64	0.066 61	0.044 61	0.000 67	0.018 65	0.036 66	0.054 58	0.447 52	0.133 60	0.472 59	0.060 62

SemRegionNet-20cls	0.121 61	0.296 60	0.203 60	0.071 58	0.058 60	0.349 57	0.000 60	0.150 58	0.019 58	0.054 63	0.034 64	0.017 62	0.052 61	0.042 65	0.013 66	0.209 64	0.183 56	0.371 61	0.057 63

3D-BEVIS	0.117 62	0.250 62	0.308 55	0.020 66	0.009 68	0.269 64	0.006 52	0.008 66	0.029 56	0.037 66	0.014 67	0.003 65	0.036 64	0.147 62	0.042 61	0.381 54	0.118 63	0.362 62	0.069 61
Cathrin Elich, Francis Engelmann, Jonas Schult, Theodora Kontogianni, Bastian Leibe: 3D-BEVIS: Birds-Eye-View Instance Segmentation.
Hier3D	0.117 62	0.222 64	0.161 63	0.054 64	0.027 65	0.289 62	0.000 60	0.124 60	0.001 66	0.079 59	0.061 60	0.027 60	0.141 57	0.240 57	0.005 67	0.310 59	0.129 61	0.153 67	0.081 59
Tan: HCFS3D: Hierarchical Coupled Feature Selection Network for 3D Semantic and Instance Segmentation.
tmp	0.113 64	0.333 59	0.151 65	0.056 63	0.053 61	0.344 60	0.000 60	0.105 61	0.016 60	0.049 64	0.035 63	0.020 61	0.053 60	0.048 64	0.013 65	0.183 66	0.173 58	0.344 64	0.054 64

Sem_Recon_ins	0.098 65	0.295 61	0.187 61	0.015 67	0.036 64	0.213 66	0.005 53	0.038 64	0.003 63	0.056 62	0.037 62	0.036 58	0.015 66	0.051 63	0.044 60	0.209 65	0.098 66	0.354 63	0.071 60

ASIS	0.085 66	0.037 67	0.080 67	0.066 61	0.047 62	0.282 63	0.000 60	0.052 63	0.002 65	0.047 65	0.026 65	0.001 66	0.046 62	0.194 59	0.031 62	0.264 61	0.140 59	0.167 66	0.047 66

Sgpn_scannet	0.049 67	0.023 68	0.134 66	0.031 65	0.013 67	0.144 67	0.006 50	0.008 67	0.000 67	0.028 67	0.017 66	0.003 64	0.009 68	0.000 67	0.021 64	0.122 67	0.095 67	0.175 65	0.054 65

MaskRCNN 2d->3d Proj	0.022 68	0.185 65	0.000 68	0.000 68	0.015 66	0.000 68	0.000 58	0.006 68	0.000 67	0.010 68	0.006 68	0.107 49	0.012 67	0.000 67	0.002 68	0.027 68	0.004 68	0.022 68	0.001 68

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

Virtual MVFusion (R)	0.745 1	0.861 1	0.839 1	0.881 1	0.672 2	0.512 1	0.422 17	0.898 1	0.723 1	0.714 1	0.954 2	0.454 1	0.509 1	0.773 1	0.895 1	0.756 1	0.820 1	0.653 1	0.935 1	0.891 1	0.728 1
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
BPNet_2D	0.670 2	0.822 3	0.795 3	0.836 2	0.659 3	0.481 2	0.451 13	0.769 4	0.656 3	0.567 4	0.931 3	0.395 6	0.390 5	0.700 4	0.534 4	0.689 10	0.770 2	0.574 3	0.865 9	0.831 3	0.675 5
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia and Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MVF-GNN（2D）	0.636 3	0.606 14	0.794 4	0.434 16	0.688 1	0.337 8	0.464 12	0.798 3	0.632 5	0.589 3	0.908 8	0.420 2	0.329 12	0.743 2	0.594 2	0.738 2	0.676 5	0.527 4	0.906 2	0.818 6	0.715 3

CU-Hybrid-2D Net	0.636 3	0.825 2	0.820 2	0.179 23	0.648 4	0.463 3	0.549 2	0.742 7	0.676 2	0.628 2	0.961 1	0.420 2	0.379 6	0.684 8	0.381 18	0.732 3	0.723 3	0.599 2	0.827 16	0.851 2	0.634 7

CMX	0.613 5	0.681 8	0.725 12	0.502 12	0.634 6	0.297 18	0.478 10	0.830 2	0.651 4	0.537 7	0.924 4	0.375 7	0.315 14	0.686 7	0.451 14	0.714 5	0.543 21	0.504 6	0.894 7	0.823 5	0.688 4

DMMF_3d	0.605 6	0.651 9	0.744 10	0.782 3	0.637 5	0.387 4	0.536 3	0.732 8	0.590 7	0.540 6	0.856 21	0.359 11	0.306 15	0.596 14	0.539 3	0.627 20	0.706 4	0.497 8	0.785 21	0.757 19	0.476 22

EMSANet	0.600 7	0.716 4	0.746 9	0.395 18	0.614 9	0.382 5	0.523 4	0.713 11	0.571 11	0.503 10	0.922 6	0.404 5	0.397 4	0.655 9	0.400 16	0.626 21	0.663 6	0.469 13	0.900 4	0.827 4	0.577 14
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
MCA-Net	0.595 8	0.533 20	0.756 8	0.746 4	0.590 10	0.334 10	0.506 7	0.670 15	0.587 8	0.500 12	0.905 10	0.366 10	0.352 9	0.601 13	0.506 8	0.669 16	0.648 9	0.501 7	0.839 15	0.769 15	0.516 21

RFBNet	0.592 9	0.616 11	0.758 7	0.659 5	0.581 11	0.330 11	0.469 11	0.655 18	0.543 14	0.524 8	0.924 4	0.355 13	0.336 11	0.572 17	0.479 10	0.671 14	0.648 9	0.480 10	0.814 19	0.814 7	0.614 10

FAN_NV_RVC	0.586 10	0.510 21	0.764 6	0.079 26	0.620 8	0.330 11	0.494 8	0.753 5	0.573 9	0.556 5	0.884 16	0.405 4	0.303 16	0.718 3	0.452 13	0.672 13	0.658 7	0.509 5	0.898 5	0.813 8	0.727 2

DCRedNet	0.583 11	0.682 7	0.723 13	0.542 11	0.510 20	0.310 15	0.451 13	0.668 16	0.549 13	0.520 9	0.920 7	0.375 7	0.446 2	0.528 20	0.417 15	0.670 15	0.577 18	0.478 11	0.862 10	0.806 9	0.628 9

MIX6D_RVC	0.582 12	0.695 5	0.687 17	0.225 21	0.632 7	0.328 13	0.550 1	0.748 6	0.623 6	0.494 15	0.890 14	0.350 15	0.254 23	0.688 6	0.454 12	0.716 4	0.597 17	0.489 9	0.881 8	0.768 16	0.575 15

SSMA	0.577 13	0.695 5	0.716 15	0.439 14	0.563 14	0.314 14	0.444 15	0.719 9	0.551 12	0.503 10	0.887 15	0.346 16	0.348 10	0.603 12	0.353 20	0.709 6	0.600 15	0.457 14	0.901 3	0.786 11	0.599 13
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
DMMF	0.567 14	0.623 10	0.767 5	0.238 20	0.571 13	0.347 6	0.413 19	0.719 9	0.472 20	0.418 22	0.895 13	0.357 12	0.260 22	0.696 5	0.523 7	0.666 17	0.642 11	0.437 18	0.895 6	0.793 10	0.603 12

UNIV_CNP_RVC_UE	0.566 15	0.569 19	0.686 19	0.435 15	0.524 17	0.294 19	0.421 18	0.712 12	0.543 14	0.463 17	0.872 17	0.320 17	0.363 8	0.611 11	0.477 11	0.686 11	0.627 12	0.443 17	0.862 10	0.775 14	0.639 6

EMSAFormer	0.564 16	0.581 16	0.736 11	0.564 10	0.546 16	0.219 23	0.517 5	0.675 14	0.486 19	0.427 21	0.904 11	0.352 14	0.320 13	0.589 15	0.528 5	0.708 7	0.464 24	0.413 22	0.847 14	0.786 11	0.611 11

SN_RN152pyrx8_RVC	0.546 17	0.572 17	0.663 21	0.638 7	0.518 18	0.298 17	0.366 24	0.633 21	0.510 17	0.446 19	0.864 19	0.296 20	0.267 19	0.542 19	0.346 21	0.704 8	0.575 19	0.431 19	0.853 13	0.766 17	0.630 8

UDSSEG_RVC	0.545 18	0.610 13	0.661 22	0.588 8	0.556 15	0.268 21	0.482 9	0.642 20	0.572 10	0.475 16	0.836 23	0.312 18	0.367 7	0.630 10	0.189 23	0.639 19	0.495 23	0.452 15	0.826 17	0.756 20	0.541 17

segfomer with 6d	0.542 19	0.594 15	0.687 17	0.146 24	0.579 12	0.308 16	0.515 6	0.703 13	0.472 20	0.498 13	0.868 18	0.369 9	0.282 17	0.589 15	0.390 17	0.701 9	0.556 20	0.416 21	0.860 12	0.759 18	0.539 19

FuseNet	0.535 20	0.570 18	0.681 20	0.182 22	0.512 19	0.290 20	0.431 16	0.659 17	0.504 18	0.495 14	0.903 12	0.308 19	0.428 3	0.523 21	0.365 19	0.676 12	0.621 14	0.470 12	0.762 22	0.779 13	0.541 17
Caner Hazirbas, Lingni Ma, Csaba Domokos, Daniel Cremers: FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. ACCV 2016
AdapNet++	0.503 21	0.613 12	0.722 14	0.418 17	0.358 26	0.337 8	0.370 23	0.479 24	0.443 22	0.368 24	0.907 9	0.207 23	0.213 25	0.464 24	0.525 6	0.618 22	0.657 8	0.450 16	0.788 20	0.721 23	0.408 25
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
3DMV (2d proj)	0.498 22	0.481 24	0.612 23	0.579 9	0.456 22	0.343 7	0.384 21	0.623 22	0.525 16	0.381 23	0.845 22	0.254 22	0.264 21	0.557 18	0.182 24	0.581 24	0.598 16	0.429 20	0.760 23	0.661 25	0.446 24
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
MSeg1080_RVC	0.485 23	0.505 22	0.709 16	0.092 25	0.427 23	0.241 22	0.411 20	0.654 19	0.385 26	0.457 18	0.861 20	0.053 26	0.279 18	0.503 22	0.481 9	0.645 18	0.626 13	0.365 24	0.748 24	0.725 22	0.529 20
John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun: MSeg: A Composite Dataset for Multi-domain Semantic Segmentation. CVPR 2020
ILC-PSPNet	0.475 24	0.490 23	0.581 24	0.289 19	0.507 21	0.067 26	0.379 22	0.610 23	0.417 24	0.435 20	0.822 25	0.278 21	0.267 19	0.503 22	0.228 22	0.616 23	0.533 22	0.375 23	0.820 18	0.729 21	0.560 16

Enet (reimpl)	0.376 25	0.264 26	0.452 26	0.452 13	0.365 24	0.181 24	0.143 26	0.456 25	0.409 25	0.346 25	0.769 26	0.164 24	0.218 24	0.359 25	0.123 26	0.403 26	0.381 26	0.313 26	0.571 25	0.685 24	0.472 23
Re-implementation of Adam Paszke, Abhishek Chaurasia, Sangpil Kim, Eugenio Culurciello: ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation.
ScanNet (2d proj)	0.330 26	0.293 25	0.521 25	0.657 6	0.361 25	0.161 25	0.250 25	0.004 26	0.440 23	0.183 26	0.836 23	0.125 25	0.060 26	0.319 26	0.132 25	0.417 25	0.412 25	0.344 25	0.541 26	0.427 26	0.109 26
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17

Presenting the ScanNet200 Benchmark

ScanNet200 Benchmark

ScanNet200 3D Semantic Label Benchmark

ScanNet200 3D Semantic Instance Benchmark

ScanNet Benchmark

3D Semantic Label Benchmark

3D Semantic Instance Benchmark

2D Semantic Label Benchmark

2D Semantic Instance Benchmark

Scene Type Classification Benchmark

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

EMSANet (Instance)	0.241 1	0.401 1	0.439 1	0.085 1	0.242 1	0.220 1	0.081 1	0.289 2	0.117 2	0.121 1	0.182 1	0.126 1	0.346 1	0.181 2	0.181 2	0.358 1	0.156 1	0.675 2	0.131 1
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
UniDet_RVC	0.205 2	0.381 2	0.323 3	0.037 3	0.226 3	0.177 3	0.063 2	0.277 3	0.120 1	0.067 3	0.131 3	0.074 3	0.317 2	0.080 3	0.235 1	0.289 3	0.141 3	0.678 1	0.080 3

FKNet	0.204 3	0.334 3	0.358 2	0.038 2	0.234 2	0.184 2	0.025 3	0.318 1	0.042 4	0.088 2	0.141 2	0.053 4	0.300 3	0.207 1	0.171 3	0.292 2	0.149 2	0.636 3	0.109 2

MaskRCNN_ScanNet	0.119 4	0.129 4	0.212 4	0.002 4	0.112 4	0.148 4	0.014 4	0.205 4	0.044 3	0.066 4	0.078 4	0.095 2	0.142 4	0.030 4	0.128 4	0.139 4	0.080 4	0.459 4	0.057 4
Re-implementation of Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick: Mask R-CNN. ICCV'17

Method	avg recall	apartment	bathroom	bedroom / hotel	bookstore / library	conference room	copy/mail room	hallway	kitchen	laundry room	living room / lounge	misc	office	storage / basement / garage

LAST-PCL-type	0.780 1	0.250 3	1.000 1	1.000 1	1.000 1	1.000 1	1.000 1	0.500 2	1.000 1	0.500 2	0.889 1	0.000 2	1.000 1	1.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang: Language-Assisted 3D Scene Understanding. arxiv23.12
multi-task	0.700 2	0.500 1	1.000 1	0.882 3	0.500 3	1.000 1	1.000 1	0.500 2	1.000 1	1.000 1	0.778 2	0.000 2	0.938 2	0.000 3
Shengyu Huang, Mikhail Usvyatsov, Konrad Schindler: Indoor Scene Recognition in 3D. IROS 2020
3DASPP-SCE	0.691 3	0.500 1	0.938 3	0.824 4	1.000 1	1.000 1	0.500 3	1.000 1	0.857 3	0.500 2	0.556 4	0.000 2	0.812 3	0.500 2

SE-ResNeXt-SSMA	0.498 4	0.000 5	0.812 4	0.941 2	0.500 3	0.500 4	0.500 3	0.500 2	0.429 5	0.500 2	0.667 3	0.500 1	0.625 4	0.000 3
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. arXiv
resnet50_scannet	0.353 5	0.250 3	0.812 4	0.529 5	0.500 3	0.500 4	0.000 5	0.500 2	0.571 4	0.000 5	0.556 4	0.000 2	0.375 5	0.000 3