Benchmark Results - ScanNet Benchmark

This table lists the benchmark results for the ScanNet200 3D semantic label scenario.

Method	avg iou	head iou	common iou	tail iou	backpack	bag	ball	bar	basket	bathroom cabinet	bathroom stall	bathroom stall door	bathroom vanity	bathtub	bed	bench	bicycle	bin	blackboard	blanket	blinds	board	book	bookshelf	bottle	bowl	box	broom	bucket	bulletin board	cabinet	calendar	candle	cart	case of water bottles	ceiling	ceiling light	chair	clock	closet	closet rod	clothes	clothes dryer	coat rack	coffee kettle	coffee maker	coffee table	column	computer tower	copier	couch	counter	cup	curtain	cushion	decoration	desk	dining table	dish rack	dishwasher	door	doorframe	dresser	dumbbell	end table	fan	file cabinet	fire alarm	fire extinguisher	floor	folded chair	hat	headphones	ironing board	jacket	keyboard	keyboard piano	kitchen cabinet	kitchen counter	ladder	lamp	laptop	laundry basket	laundry detergent	laundry hamper	ledge	light	light switch	machine	mailbox	mat	microwave	mini fridge	mirror	monitor	mouse	music stand	nightstand	object	office chair	oven	paper	paper bag	paper cutter	paper towel dispenser	paper towel roll	person	piano	picture	pillow	pipe	plant	plate	plunger	poster	power outlet	power strip	printer	projector	projector screen	rack	radiator	range hood	recycling bin	refrigerator	scale	seat	shelf	shoe	shower	shower curtain	shower curtain rod	shower floor	shower head	shower wall	sign	sink	soap dispenser	sofa chair	speaker	stair rail	stairs	stand	stool	storage bin	storage container	storage organizer	stove	structure	stuffed animal	suitcase	table	telephone	tissue box	toaster	toilet	toilet paper	toilet paper dispenser	towel	trash bin	trash can	tray	tube	tv	tv stand	vacuum cleaner	vent	wall	wardrobe	washing machine	water bottle	water cooler	water pitcher	whiteboard	window	windowsill

PonderV2 ScanNet200	0.346 2	0.552 4	0.270 4	0.175 3	0.497 5	0.070 8	0.239 4	0.000 1	0.000 3	0.000 1	0.232 11	0.412 5	0.584 1	0.842 3	0.804 3	0.212 5	0.540 4	0.000 3	0.433 11	0.106 6	0.000 6	0.590 3	0.290 6	0.548 2	0.243 4	0.000 5	0.356 7	0.000 1	0.000 3	0.062 7	0.398 7	0.441 5	0.000 1	0.104 6	0.000 2	0.888 2	0.076 8	0.682 4	0.030 1	0.094 4	0.491 6	0.351 7	0.869 7	0.000 1	0.063 1	0.403 6	0.700 2	0.000 7	0.660 9	0.881 3	0.761 1	0.050 6	0.186 5	0.852 7	0.000 1	0.007 5	0.570 5	0.100 2	0.565 2	0.326 3	0.641 6	0.431 3	0.290 8	0.621 3	0.259 2	0.408 5	0.622 6	0.125 1	0.082 7	0.950 2	0.179 3	0.000 1	0.263 2	0.424 2	0.193 5	0.558 3	0.880 1	0.545 7	0.375 4	0.727 2	0.445 6	0.499 6	0.000 3	0.000 1	0.475 4	0.002 4	0.034 4	0.083 4	0.000 3	0.924 1	0.290 3	0.636 3	0.115 8	0.400 3	0.874 3	0.186 4	0.000 1	0.611 5	0.128 2	0.113 2	0.000 4	0.000 1	0.000 5	0.584 6	0.636 5	0.103 8	0.385 5	0.843 4	0.283 2	0.603 3	0.080 5	0.825 4	0.000 3	0.377 6	0.000 1	0.000 4	0.000 2	0.457 7	0.000 1	0.000 5	0.000 1	0.574 8	0.608 6	0.481 2	0.792 3	0.394 2	0.000 1	0.357 6	0.503 7	0.261 6	0.817 7	0.504 8	0.304 4	0.472 3	0.115 5	0.000 1	0.750 3	0.677 3	0.202 1	0.000 7	0.509 3	0.729 1	0.000 1	0.519 8	0.000 10	0.000 5	0.000 1	0.620 8	0.000 2	0.000 1	0.660 3	0.560 4	0.486 2	0.384 6	0.346 4	0.952 2	0.247 8	0.667 2	0.436 6	0.269 3	0.691 3	0.000 1	0.010 3	0.787 5	0.889 2	0.880 4	0.000 1	0.810 4	0.336 3	0.860 6	0.000 1	0.606 4	0.009 5	0.248 5	0.681 4	0.392 6
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
PTv3 ScanNet200	0.393 1	0.592 1	0.330 1	0.216 1	0.520 1	0.109 2	0.108 10	0.000 1	0.337 1	0.000 1	0.310 9	0.394 6	0.494 8	0.753 7	0.848 1	0.256 2	0.717 2	0.000 3	0.842 1	0.192 2	0.065 2	0.449 5	0.346 1	0.546 3	0.190 7	0.000 5	0.384 4	0.000 1	0.000 3	0.218 1	0.505 1	0.791 1	0.000 1	0.136 1	0.000 2	0.903 1	0.073 9	0.687 3	0.000 4	0.168 1	0.551 2	0.387 5	0.941 1	0.000 1	0.000 2	0.397 7	0.654 3	0.000 7	0.714 3	0.759 9	0.752 4	0.118 4	0.264 2	0.926 1	0.000 1	0.048 2	0.575 2	0.000 7	0.597 1	0.366 1	0.755 1	0.469 1	0.474 1	0.798 1	0.140 6	0.617 1	0.692 3	0.000 4	0.592 2	0.971 1	0.188 2	0.000 1	0.133 4	0.593 1	0.349 1	0.650 1	0.717 4	0.699 1	0.455 1	0.790 1	0.523 3	0.636 1	0.301 1	0.000 1	0.622 2	0.000 6	0.017 9	0.259 1	0.000 3	0.921 2	0.337 1	0.733 1	0.210 1	0.514 1	0.860 6	0.407 1	0.000 1	0.688 1	0.109 6	0.000 9	0.000 4	0.000 1	0.151 1	0.671 4	0.782 1	0.115 7	0.641 1	0.903 1	0.349 1	0.616 1	0.088 4	0.832 2	0.000 3	0.480 1	0.000 1	0.428 1	0.000 2	0.497 6	0.000 1	0.000 5	0.000 1	0.662 2	0.690 1	0.612 1	0.828 1	0.575 1	0.000 1	0.404 4	0.644 1	0.325 3	0.887 2	0.728 1	0.009 10	0.134 5	0.026 11	0.000 1	0.761 1	0.731 1	0.172 3	0.077 2	0.528 2	0.727 2	0.000 1	0.603 4	0.220 2	0.022 2	0.000 1	0.740 1	0.000 2	0.000 1	0.661 1	0.586 1	0.566 1	0.436 4	0.531 1	0.978 1	0.457 1	0.708 1	0.583 3	0.141 7	0.748 1	0.000 1	0.026 1	0.822 1	0.871 3	0.879 5	0.000 1	0.851 1	0.405 2	0.914 1	0.000 1	0.682 2	0.000 9	0.281 1	0.738 1	0.463 4
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024
L3DETR-ScanNet_200	0.336 4	0.533 7	0.279 2	0.155 4	0.508 3	0.073 7	0.101 11	0.000 1	0.058 2	0.000 1	0.294 10	0.233 10	0.548 2	0.927 1	0.788 5	0.264 1	0.463 5	0.000 3	0.638 7	0.098 9	0.014 4	0.411 7	0.226 7	0.525 7	0.225 6	0.010 3	0.397 3	0.000 1	0.000 3	0.192 3	0.380 8	0.598 3	0.000 1	0.117 2	0.000 2	0.883 3	0.082 6	0.689 2	0.000 4	0.032 11	0.549 3	0.417 3	0.910 3	0.000 1	0.000 2	0.448 5	0.613 6	0.000 7	0.697 5	0.960 1	0.759 2	0.158 2	0.293 1	0.883 3	0.000 1	0.312 1	0.583 1	0.079 4	0.422 8	0.068 11	0.660 4	0.418 4	0.298 6	0.430 8	0.114 7	0.526 3	0.776 1	0.051 2	0.679 1	0.946 3	0.152 5	0.000 1	0.183 3	0.000 9	0.211 4	0.511 6	0.409 10	0.565 6	0.355 5	0.448 4	0.512 4	0.557 2	0.000 3	0.000 1	0.420 5	0.000 6	0.007 11	0.104 2	0.000 3	0.125 11	0.330 2	0.514 9	0.146 7	0.321 7	0.860 6	0.174 5	0.000 1	0.629 3	0.075 10	0.000 9	0.000 4	0.000 1	0.002 4	0.671 4	0.712 3	0.141 3	0.339 6	0.856 3	0.261 6	0.529 6	0.067 7	0.835 1	0.000 3	0.369 8	0.000 1	0.259 2	0.000 2	0.629 3	0.000 1	0.487 1	0.000 1	0.579 7	0.646 2	0.107 11	0.720 8	0.122 4	0.000 1	0.333 8	0.505 6	0.303 5	0.908 1	0.503 9	0.565 1	0.074 6	0.324 1	0.000 1	0.740 4	0.661 5	0.109 8	0.000 7	0.427 7	0.563 11	0.000 1	0.579 7	0.108 5	0.000 5	0.000 1	0.664 3	0.000 2	0.000 1	0.641 4	0.539 6	0.416 3	0.515 2	0.256 5	0.940 7	0.312 3	0.209 11	0.620 1	0.138 9	0.636 7	0.000 1	0.000 8	0.775 8	0.861 4	0.765 7	0.000 1	0.801 6	0.119 9	0.860 6	0.000 1	0.687 1	0.001 8	0.192 10	0.679 6	0.699 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, Jian Zhang: Language-Assisted 3D Scene Understanding. arXiv23.12
OA-CNN-L_ScanNet200	0.333 5	0.558 2	0.269 5	0.124 7	0.448 9	0.080 5	0.272 3	0.000 1	0.000 3	0.000 1	0.342 5	0.515 2	0.524 4	0.713 11	0.789 4	0.158 7	0.384 6	0.000 3	0.806 3	0.125 3	0.000 6	0.496 4	0.332 3	0.498 10	0.227 5	0.024 2	0.474 1	0.000 1	0.003 2	0.071 6	0.487 2	0.000 6	0.000 1	0.110 4	0.000 2	0.876 4	0.013 11	0.703 1	0.000 4	0.076 6	0.473 7	0.355 6	0.906 4	0.000 1	0.000 2	0.476 4	0.706 1	0.000 7	0.672 8	0.835 7	0.748 5	0.015 10	0.223 4	0.860 5	0.000 1	0.000 7	0.572 4	0.000 7	0.509 5	0.313 4	0.662 2	0.398 8	0.396 2	0.411 9	0.276 1	0.527 2	0.711 2	0.000 4	0.076 8	0.946 3	0.166 4	0.000 1	0.022 5	0.160 3	0.183 7	0.493 7	0.699 5	0.637 3	0.403 3	0.330 8	0.406 7	0.526 4	0.024 2	0.000 1	0.392 7	0.000 6	0.016 10	0.000 6	0.196 2	0.915 4	0.112 6	0.557 5	0.197 2	0.352 6	0.877 2	0.000 6	0.000 1	0.592 9	0.103 8	0.000 9	0.067 1	0.000 1	0.089 2	0.735 3	0.625 6	0.130 6	0.568 3	0.836 5	0.271 3	0.534 5	0.043 9	0.799 5	0.001 2	0.445 2	0.000 1	0.000 4	0.024 1	0.661 2	0.000 1	0.262 2	0.000 1	0.591 4	0.517 10	0.373 5	0.788 5	0.021 5	0.000 1	0.455 1	0.517 5	0.320 4	0.823 6	0.200 11	0.001 11	0.150 4	0.100 6	0.000 1	0.736 5	0.668 4	0.103 9	0.052 4	0.662 1	0.720 3	0.000 1	0.602 5	0.112 4	0.002 4	0.000 1	0.637 6	0.000 2	0.000 1	0.621 6	0.569 2	0.398 5	0.412 5	0.234 6	0.949 3	0.363 2	0.492 9	0.495 5	0.251 4	0.665 5	0.000 1	0.001 7	0.805 3	0.833 5	0.794 6	0.000 1	0.821 2	0.314 4	0.843 8	0.000 1	0.560 5	0.245 2	0.262 3	0.713 2	0.370 8

PPT-SpUNet-F.T.	0.332 6	0.556 3	0.270 3	0.123 8	0.519 2	0.091 3	0.349 2	0.000 1	0.000 3	0.000 1	0.339 6	0.383 7	0.498 7	0.833 4	0.807 2	0.241 3	0.584 3	0.000 3	0.755 4	0.124 4	0.000 6	0.608 2	0.330 4	0.530 6	0.314 1	0.000 5	0.374 5	0.000 1	0.000 3	0.197 2	0.459 4	0.000 6	0.000 1	0.117 2	0.000 2	0.876 4	0.095 1	0.682 4	0.000 4	0.086 5	0.518 4	0.433 1	0.930 2	0.000 1	0.000 2	0.563 3	0.542 8	0.077 4	0.715 2	0.858 5	0.756 3	0.008 11	0.171 7	0.874 4	0.000 1	0.039 3	0.550 6	0.000 7	0.545 4	0.256 5	0.657 5	0.453 2	0.351 4	0.449 7	0.213 3	0.392 6	0.611 7	0.000 4	0.037 9	0.946 3	0.138 8	0.000 1	0.000 7	0.063 5	0.308 2	0.537 4	0.796 2	0.673 2	0.323 8	0.392 6	0.400 8	0.509 5	0.000 3	0.000 1	0.649 1	0.000 6	0.023 6	0.000 6	0.000 3	0.914 5	0.002 10	0.506 10	0.163 6	0.359 5	0.872 4	0.000 6	0.000 1	0.623 4	0.112 4	0.001 8	0.000 4	0.000 1	0.021 3	0.753 1	0.565 10	0.150 1	0.579 2	0.806 7	0.267 4	0.616 1	0.042 10	0.783 7	0.000 3	0.374 7	0.000 1	0.000 4	0.000 2	0.620 5	0.000 1	0.000 5	0.000 1	0.572 9	0.634 3	0.350 6	0.792 3	0.000 6	0.000 1	0.376 5	0.535 3	0.378 2	0.855 3	0.672 2	0.074 7	0.000 7	0.185 4	0.000 1	0.727 6	0.660 6	0.076 11	0.000 7	0.432 6	0.646 5	0.000 1	0.594 6	0.006 9	0.000 5	0.000 1	0.658 4	0.000 2	0.000 1	0.661 1	0.549 5	0.300 8	0.291 8	0.045 8	0.942 6	0.304 4	0.600 5	0.572 4	0.135 10	0.695 2	0.000 1	0.008 5	0.793 4	0.942 1	0.899 2	0.000 1	0.816 3	0.181 6	0.897 2	0.000 1	0.679 3	0.223 3	0.264 2	0.691 3	0.345 9
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer ScanNet200	0.326 7	0.539 6	0.265 6	0.131 6	0.499 4	0.110 1	0.522 1	0.000 1	0.000 3	0.000 1	0.318 8	0.427 4	0.455 9	0.743 9	0.765 7	0.175 6	0.842 1	0.000 3	0.828 2	0.204 1	0.033 3	0.429 6	0.335 2	0.601 1	0.312 2	0.000 5	0.357 6	0.000 1	0.000 3	0.047 8	0.423 5	0.000 6	0.000 1	0.105 5	0.000 2	0.873 6	0.079 7	0.670 7	0.000 4	0.117 2	0.471 8	0.432 2	0.829 8	0.000 1	0.000 2	0.584 2	0.417 11	0.089 3	0.684 7	0.837 6	0.705 10	0.021 9	0.178 6	0.892 2	0.000 1	0.028 4	0.505 8	0.000 7	0.457 6	0.200 8	0.662 2	0.412 6	0.244 9	0.496 5	0.000 11	0.451 4	0.626 5	0.000 4	0.102 6	0.943 6	0.138 8	0.000 1	0.000 7	0.149 4	0.291 3	0.534 5	0.722 3	0.632 4	0.331 7	0.253 10	0.453 5	0.487 7	0.000 3	0.000 1	0.479 3	0.000 6	0.022 7	0.000 6	0.000 3	0.900 6	0.128 5	0.684 2	0.164 5	0.413 2	0.854 8	0.000 6	0.000 1	0.512 11	0.074 11	0.003 7	0.000 4	0.000 1	0.000 5	0.469 9	0.613 7	0.132 5	0.529 4	0.871 2	0.227 10	0.582 4	0.026 11	0.787 6	0.000 3	0.339 9	0.000 1	0.000 4	0.000 2	0.626 4	0.000 1	0.029 4	0.000 1	0.587 5	0.612 5	0.411 4	0.724 7	0.000 6	0.000 1	0.407 3	0.552 2	0.513 1	0.849 4	0.655 3	0.408 2	0.000 7	0.296 2	0.000 1	0.686 9	0.645 8	0.145 5	0.022 5	0.414 8	0.633 6	0.000 1	0.637 1	0.224 1	0.000 5	0.000 1	0.650 5	0.000 2	0.000 1	0.622 5	0.535 7	0.343 6	0.483 3	0.230 7	0.943 5	0.289 5	0.618 4	0.596 2	0.140 8	0.679 4	0.000 1	0.022 2	0.783 6	0.620 9	0.906 1	0.000 1	0.806 5	0.137 8	0.865 3	0.000 1	0.378 7	0.000 9	0.168 11	0.680 5	0.227 10
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
CeCo	0.340 3	0.551 5	0.247 7	0.181 2	0.475 7	0.057 11	0.142 8	0.000 1	0.000 3	0.000 1	0.387 3	0.463 3	0.499 6	0.924 2	0.774 6	0.213 4	0.257 7	0.000 3	0.546 10	0.100 7	0.006 5	0.615 1	0.177 11	0.534 4	0.246 3	0.000 5	0.400 2	0.000 1	0.338 1	0.006 10	0.484 3	0.609 2	0.000 1	0.083 7	0.000 2	0.873 6	0.089 4	0.661 8	0.000 4	0.048 10	0.560 1	0.408 4	0.892 5	0.000 1	0.000 2	0.586 1	0.616 5	0.000 7	0.692 6	0.900 2	0.721 6	0.162 1	0.228 3	0.860 5	0.000 1	0.000 7	0.575 2	0.083 3	0.550 3	0.347 2	0.624 7	0.410 7	0.360 3	0.740 2	0.109 8	0.321 9	0.660 4	0.000 4	0.121 4	0.939 7	0.143 6	0.000 1	0.400 1	0.003 7	0.190 6	0.564 2	0.652 6	0.615 5	0.421 2	0.304 9	0.579 1	0.547 3	0.000 3	0.000 1	0.296 8	0.000 6	0.030 5	0.096 3	0.000 3	0.916 3	0.037 7	0.551 6	0.171 4	0.376 4	0.865 5	0.286 2	0.000 1	0.633 2	0.102 9	0.027 5	0.011 3	0.000 1	0.000 5	0.474 8	0.742 2	0.133 4	0.311 7	0.824 6	0.242 7	0.503 8	0.068 6	0.828 3	0.000 3	0.429 3	0.000 1	0.063 3	0.000 2	0.781 1	0.000 1	0.000 5	0.000 1	0.665 1	0.633 4	0.450 3	0.818 2	0.000 6	0.000 1	0.429 2	0.532 4	0.226 7	0.825 5	0.510 7	0.377 3	0.709 1	0.079 8	0.000 1	0.753 2	0.683 2	0.102 10	0.063 3	0.401 10	0.620 8	0.000 1	0.619 2	0.000 10	0.000 5	0.000 1	0.595 9	0.000 2	0.000 1	0.345 8	0.564 3	0.411 4	0.603 1	0.384 3	0.945 4	0.266 6	0.643 3	0.367 8	0.304 1	0.663 6	0.000 1	0.010 3	0.726 9	0.767 6	0.898 3	0.000 1	0.784 7	0.435 1	0.861 5	0.000 1	0.447 6	0.000 9	0.257 4	0.656 7	0.377 7
Zhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia: Understanding Imbalanced Semantic Segmentation Through Neural Collapse. CVPR 2023
AWCS	0.305 8	0.508 8	0.225 8	0.142 5	0.463 8	0.063 9	0.195 6	0.000 1	0.000 3	0.000 1	0.467 2	0.551 1	0.504 5	0.773 5	0.764 8	0.142 8	0.029 11	0.000 3	0.626 8	0.100 7	0.000 6	0.360 8	0.179 9	0.507 9	0.137 9	0.006 4	0.300 8	0.000 1	0.000 3	0.172 5	0.364 9	0.512 4	0.000 1	0.056 8	0.000 2	0.865 8	0.093 3	0.634 11	0.000 4	0.071 8	0.396 9	0.296 10	0.876 6	0.000 1	0.000 2	0.373 8	0.436 10	0.063 6	0.749 1	0.877 4	0.721 6	0.131 3	0.124 8	0.804 9	0.000 1	0.000 7	0.515 7	0.010 6	0.452 7	0.252 6	0.578 8	0.417 5	0.179 11	0.484 6	0.171 4	0.337 8	0.606 8	0.000 4	0.115 5	0.937 8	0.142 7	0.000 1	0.008 6	0.000 9	0.157 10	0.484 8	0.402 11	0.501 9	0.339 6	0.553 3	0.529 2	0.478 8	0.000 3	0.000 1	0.404 6	0.001 5	0.022 7	0.077 5	0.000 3	0.894 8	0.219 4	0.628 4	0.093 9	0.305 8	0.886 1	0.233 3	0.000 1	0.603 6	0.112 4	0.023 6	0.000 4	0.000 1	0.000 5	0.741 2	0.664 4	0.097 9	0.253 8	0.782 8	0.264 5	0.523 7	0.154 1	0.707 10	0.000 3	0.411 4	0.000 1	0.000 4	0.000 2	0.332 10	0.000 1	0.000 5	0.000 1	0.602 3	0.595 7	0.185 9	0.656 10	0.159 3	0.000 1	0.355 7	0.424 9	0.154 9	0.729 9	0.516 6	0.220 6	0.620 2	0.084 7	0.000 1	0.707 8	0.651 7	0.173 2	0.014 6	0.381 11	0.582 9	0.000 1	0.619 2	0.049 8	0.000 5	0.000 1	0.702 2	0.000 2	0.000 1	0.302 10	0.489 9	0.317 7	0.334 7	0.392 2	0.922 8	0.254 7	0.533 8	0.394 7	0.129 11	0.613 9	0.000 1	0.000 8	0.820 2	0.649 8	0.749 8	0.000 1	0.782 8	0.282 5	0.863 4	0.000 1	0.288 10	0.006 6	0.220 7	0.633 8	0.542 2

LGround	0.272 9	0.485 9	0.184 9	0.106 9	0.476 6	0.077 6	0.218 5	0.000 1	0.000 3	0.000 1	0.547 1	0.295 8	0.540 3	0.746 8	0.745 9	0.058 10	0.112 10	0.005 1	0.658 6	0.077 11	0.000 6	0.322 9	0.178 10	0.512 8	0.190 7	0.199 1	0.277 9	0.000 1	0.000 3	0.173 4	0.399 6	0.000 6	0.000 1	0.039 10	0.000 2	0.858 9	0.085 5	0.676 6	0.002 2	0.103 3	0.498 5	0.323 8	0.703 9	0.000 1	0.000 2	0.296 9	0.549 7	0.216 1	0.702 4	0.768 8	0.718 8	0.028 7	0.092 10	0.786 10	0.000 1	0.000 7	0.453 10	0.022 5	0.251 11	0.252 6	0.572 9	0.348 9	0.321 5	0.514 4	0.063 9	0.279 10	0.552 9	0.000 4	0.019 10	0.932 9	0.132 10	0.000 1	0.000 7	0.000 9	0.156 11	0.457 9	0.623 7	0.518 8	0.265 10	0.358 7	0.381 9	0.395 9	0.000 3	0.000 1	0.127 11	0.012 3	0.051 1	0.000 6	0.000 3	0.886 9	0.014 8	0.437 11	0.179 3	0.244 9	0.826 9	0.000 6	0.000 1	0.599 7	0.136 1	0.085 3	0.000 4	0.000 1	0.000 5	0.565 7	0.612 8	0.143 2	0.207 9	0.566 9	0.232 9	0.446 9	0.127 2	0.708 9	0.000 3	0.384 5	0.000 1	0.000 4	0.000 2	0.402 8	0.000 1	0.059 3	0.000 1	0.525 11	0.566 8	0.229 8	0.659 9	0.000 6	0.000 1	0.265 9	0.446 8	0.147 10	0.720 11	0.597 5	0.066 8	0.000 7	0.187 3	0.000 1	0.726 7	0.467 11	0.134 7	0.000 7	0.413 9	0.629 7	0.000 1	0.363 10	0.055 7	0.022 2	0.000 1	0.626 7	0.000 2	0.000 1	0.323 9	0.479 11	0.154 10	0.117 9	0.028 10	0.901 9	0.243 9	0.415 10	0.295 11	0.143 6	0.610 10	0.000 1	0.000 8	0.777 7	0.397 11	0.324 10	0.000 1	0.778 9	0.179 7	0.702 10	0.000 1	0.274 11	0.404 1	0.233 6	0.622 9	0.398 5
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild. arXiv
CSC-Pretrain	0.249 11	0.455 11	0.171 10	0.079 11	0.418 10	0.059 10	0.186 7	0.000 1	0.000 3	0.000 1	0.335 7	0.250 9	0.316 10	0.766 6	0.697 11	0.142 8	0.170 8	0.003 2	0.553 9	0.112 5	0.097 1	0.201 11	0.186 8	0.476 11	0.081 10	0.000 5	0.216 11	0.000 1	0.000 3	0.001 11	0.314 11	0.000 6	0.000 1	0.055 9	0.000 2	0.832 11	0.094 2	0.659 9	0.002 2	0.076 6	0.310 11	0.293 11	0.664 11	0.000 1	0.000 2	0.175 11	0.634 4	0.130 2	0.552 11	0.686 11	0.700 11	0.076 5	0.110 9	0.770 11	0.000 1	0.000 7	0.430 11	0.000 7	0.319 9	0.166 9	0.542 11	0.327 10	0.205 10	0.332 10	0.052 10	0.375 7	0.444 11	0.000 4	0.012 11	0.930 11	0.203 1	0.000 1	0.000 7	0.046 6	0.175 8	0.413 10	0.592 8	0.471 10	0.299 9	0.152 11	0.340 10	0.247 11	0.000 3	0.000 1	0.225 9	0.058 2	0.037 2	0.000 6	0.207 1	0.862 10	0.014 8	0.548 7	0.033 10	0.233 10	0.816 10	0.000 6	0.000 1	0.542 10	0.123 3	0.121 1	0.019 2	0.000 1	0.000 5	0.463 10	0.454 11	0.045 11	0.128 11	0.557 10	0.235 8	0.441 10	0.063 8	0.484 11	0.000 3	0.308 11	0.000 1	0.000 4	0.000 2	0.318 11	0.000 1	0.000 5	0.000 1	0.545 10	0.543 9	0.164 10	0.734 6	0.000 6	0.000 1	0.215 11	0.371 10	0.198 8	0.743 8	0.205 10	0.062 9	0.000 7	0.079 8	0.000 1	0.683 10	0.547 10	0.142 6	0.000 7	0.441 5	0.579 10	0.000 1	0.464 9	0.098 6	0.041 1	0.000 1	0.590 10	0.000 2	0.000 1	0.373 7	0.494 8	0.174 9	0.105 10	0.001 11	0.895 10	0.222 10	0.537 7	0.307 10	0.180 5	0.625 8	0.000 1	0.000 8	0.591 11	0.609 10	0.398 9	0.000 1	0.766 11	0.014 11	0.638 11	0.000 1	0.377 8	0.004 7	0.206 9	0.609 11	0.465 3
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
Minkowski 34D	0.253 10	0.463 10	0.154 11	0.102 10	0.381 11	0.084 4	0.134 9	0.000 1	0.000 3	0.000 1	0.386 4	0.141 11	0.279 11	0.737 10	0.703 10	0.014 11	0.164 9	0.000 3	0.663 5	0.092 10	0.000 6	0.224 10	0.291 5	0.531 5	0.056 11	0.000 5	0.242 10	0.000 1	0.000 3	0.013 9	0.331 10	0.000 6	0.000 1	0.035 11	0.001 1	0.858 9	0.059 10	0.650 10	0.000 4	0.056 9	0.353 10	0.299 9	0.670 10	0.000 1	0.000 2	0.284 10	0.484 9	0.071 5	0.594 10	0.720 10	0.710 9	0.027 8	0.068 11	0.813 8	0.000 1	0.005 6	0.492 9	0.164 1	0.274 10	0.111 10	0.571 10	0.307 11	0.293 7	0.307 11	0.150 5	0.163 11	0.531 10	0.002 3	0.545 3	0.932 9	0.093 11	0.000 1	0.000 7	0.002 8	0.159 9	0.368 11	0.581 9	0.440 11	0.228 11	0.406 5	0.282 11	0.294 10	0.000 3	0.000 1	0.189 10	0.060 1	0.036 3	0.000 6	0.000 3	0.897 7	0.000 11	0.525 8	0.025 11	0.205 11	0.771 11	0.000 6	0.000 1	0.593 8	0.108 7	0.044 4	0.000 4	0.000 1	0.000 5	0.282 11	0.589 9	0.094 10	0.169 10	0.466 11	0.227 10	0.419 11	0.125 3	0.757 8	0.002 1	0.334 10	0.000 1	0.000 4	0.000 2	0.357 9	0.000 1	0.000 5	0.000 1	0.582 6	0.513 11	0.337 7	0.612 11	0.000 6	0.000 1	0.250 10	0.352 11	0.136 11	0.724 10	0.655 3	0.280 5	0.000 7	0.046 10	0.000 1	0.606 11	0.559 9	0.159 4	0.102 1	0.445 4	0.655 4	0.000 1	0.310 11	0.117 3	0.000 5	0.000 1	0.581 11	0.026 1	0.000 1	0.265 11	0.483 10	0.084 11	0.097 11	0.044 9	0.865 11	0.142 11	0.588 6	0.351 9	0.272 2	0.596 11	0.000 1	0.003 6	0.622 10	0.720 7	0.096 11	0.000 1	0.771 10	0.016 10	0.772 9	0.000 1	0.302 9	0.194 4	0.214 8	0.621 10	0.197 11
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019

This table lists the benchmark results for the ScanNet200 3D semantic instance scenario.

Method	avg ap 25%	head ap 25%	common ap 25%	tail ap 25%	backpack	bag	ball	bar	basket	bathroom cabinet	bathroom stall	bathroom stall door	bathroom vanity	bathtub	bed	bench	bicycle	bin	blackboard	blanket	blinds	board	book	bookshelf	bottle	bowl	box	broom	bucket	bulletin board	cabinet	calendar	candle	cart	case of water bottles	ceiling	ceiling light	chair	clock	closet	closet rod	clothes	clothes dryer	coat rack	coffee kettle	coffee maker	coffee table	column	computer tower	copier	couch	counter	cup	curtain	cushion	decoration	desk	dining table	dish rack	dishwasher	door	doorframe	dresser	dumbbell	end table	fan	file cabinet	fire alarm	fire extinguisher	folded chair	hat	headphones	ironing board	jacket	keyboard	keyboard piano	kitchen cabinet	kitchen counter	ladder	lamp	laptop	laundry basket	laundry detergent	laundry hamper	ledge	light	light switch	machine	mailbox	mat	microwave	mini fridge	mirror	monitor	mouse	music stand	nightstand	object	office chair	oven	paper	paper bag	paper cutter	paper towel dispenser	paper towel roll	person	piano	picture	pillow	pipe	plant	plate	plunger	poster	power outlet	power strip	printer	projector	projector screen	rack	radiator	range hood	recycling bin	refrigerator	scale	seat	shelf	shoe	shower	shower curtain	shower curtain rod	shower floor	shower head	shower wall	sign	sink	soap dispenser	sofa chair	speaker	stair rail	stairs	stand	stool	storage bin	storage container	storage organizer	stove	structure	stuffed animal	suitcase	table	telephone	tissue box	toaster	toilet	toilet paper	toilet paper dispenser	towel	trash bin	trash can	tray	tube	tv	tv stand	vacuum cleaner	vent	wardrobe	washing machine	water bottle	water cooler	water pitcher	whiteboard	window	windowsill

TD3D Scannet200	0.379 2	0.603 2	0.306 2	0.190 2	0.635 2	0.073 2	0.500 1	0.000 1	0.000 1	0.000 1	0.495 3	0.735 2	0.275 5	1.000 1	0.979 2	0.590 2	0.000 4	0.021 2	0.000 3	0.146 3	0.000 2	0.356 2	0.173 5	0.795 1	0.226 2	0.000 1	0.173 2	0.000 1	0.000 2	0.226 2	0.390 2	0.000 2	0.000 1	0.250 1	0.000 1	0.706 2	0.061 3	0.885 1	0.093 2	0.186 2	0.259 4	0.200 1	0.667 1	0.000 2	0.000 1	0.667 2	0.825 1	0.250 4	0.834 4	1.000 1	0.958 1	0.553 1	0.111 3	0.748 1	0.220 2	0.051 2	0.866 2	0.792 1	0.390 5	0.045 5	0.800 2	0.302 5	0.517 1	0.533 3	0.113 2	0.427 1	0.843 2	0.000 2	0.458 1	0.600 1	0.000 1	0.101 2	0.000 1	0.259 1	0.717 2	0.500 2	0.615 2	0.520 2	0.526 2	0.457 1	0.270 4	0.000 1	0.000 1	0.400 2	0.088 2	0.294 2	0.181 2	0.000 1	1.000 1	0.400 1	0.710 5	0.103 3	0.477 5	0.905 2	0.061 2	0.000 1	0.906 2	0.102 2	0.232 1	0.125 2	0.000 2	0.003 2	0.792 3	1.000 1	0.000 2	0.102 3	0.125 4	0.559 5	0.523 3	0.075 2	0.715 1	0.000 2	0.424 5	0.000 1	0.396 2	0.250 1	0.638 1	0.000 1	0.000 2	0.000 1	0.622 5	0.833 2	0.221 1	0.970 1	0.250 2	0.038 1	0.260 2	0.415 1	0.125 2	1.000 1	1.000 1	0.857 2	0.000 2	0.908 1	0.012 1	0.869 3	0.836 1	0.635 1	0.111 1	0.625 1	1.000 1	0.020 2	0.510 1	0.003 3	0.009 2	1.000 1	0.778 1	0.000 1	0.000 1	0.370 3	0.755 1	0.288 2	0.333 3	0.274 2	1.000 1	0.557 1	0.731 2	0.456 2	0.433 3	0.769 5	0.000 1	0.000 2	0.621 4	1.000 1	0.458 4	0.000 1	0.196 2	0.817 1	0.000 1	0.472 1	0.222 3	0.205 5	0.689 2	0.274 3
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
Mask3D Scannet200	0.445 1	0.653 1	0.392 1	0.254 1	0.648 1	0.097 1	0.125 5	0.000 1	0.000 1	0.000 1	0.657 1	0.971 1	0.451 2	1.000 1	1.000 1	0.640 1	0.500 1	0.045 1	1.000 1	0.241 2	0.409 1	0.363 1	0.440 1	0.686 3	0.300 1	0.000 1	0.201 1	0.000 1	0.009 1	0.290 1	0.556 1	1.000 1	0.000 1	0.063 3	0.000 1	0.830 1	0.573 1	0.844 2	0.333 1	0.204 1	0.058 5	0.158 5	0.552 2	0.056 1	0.000 1	1.000 1	0.725 4	0.750 1	0.927 1	1.000 1	0.888 4	0.042 3	0.120 2	0.615 4	0.226 1	0.250 1	0.890 1	0.792 1	0.677 2	0.510 2	0.818 1	0.699 1	0.512 2	0.167 5	0.125 1	0.315 2	0.943 1	0.309 1	0.017 3	0.200 3	0.000 1	0.188 1	0.000 1	0.183 3	0.815 1	1.000 1	0.827 1	0.741 1	0.442 3	0.414 4	0.600 1	0.000 1	0.000 1	0.458 1	0.049 3	0.321 1	0.381 1	0.000 1	0.908 2	0.400 1	0.841 1	0.260 1	0.710 1	0.966 1	0.265 1	0.000 1	0.924 1	0.152 1	0.025 2	0.500 1	0.027 1	0.028 1	1.000 1	0.556 5	0.016 1	0.080 5	0.500 1	0.694 3	0.608 1	0.084 1	0.604 3	0.194 1	0.538 3	0.000 1	0.500 1	0.000 2	0.354 4	0.000 1	1.000 1	0.000 1	0.761 2	0.930 1	0.053 4	0.890 3	1.000 1	0.008 2	0.262 1	0.358 2	1.000 1	1.000 1	0.792 4	0.966 1	1.000 1	0.765 2	0.004 2	0.930 1	0.780 2	0.330 2	0.027 2	0.625 1	0.974 4	0.050 1	0.412 5	0.021 2	0.000 3	0.000 2	0.778 1	0.000 1	0.000 1	0.493 2	0.746 2	0.454 1	0.335 2	0.396 1	0.930 5	0.551 2	1.000 1	0.552 1	0.606 1	0.853 1	0.000 1	0.004 1	0.806 1	1.000 1	0.727 2	0.000 1	0.042 3	0.745 2	0.000 1	0.399 4	0.391 1	0.630 1	0.721 1	0.619 1
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
Minkowski 34D Inst.	0.280 4	0.488 4	0.192 5	0.124 4	0.593 4	0.010 4	0.500 1	0.000 1	0.000 1	0.000 1	0.447 4	0.535 4	0.445 3	1.000 1	0.861 4	0.400 3	0.225 2	0.000 3	0.000 3	0.142 4	0.000 2	0.074 4	0.342 3	0.467 5	0.067 3	0.000 1	0.119 5	0.000 1	0.000 2	0.000 4	0.337 5	0.000 2	0.000 1	0.000 4	0.000 1	0.506 5	0.070 2	0.804 4	0.000 3	0.000 4	0.333 3	0.172 3	0.150 5	0.000 2	0.000 1	0.479 5	0.745 3	0.000 5	0.830 5	1.000 1	0.904 3	0.167 2	0.090 4	0.732 2	0.000 3	0.000 3	0.443 4	0.000 3	0.500 3	0.542 1	0.772 5	0.396 4	0.077 5	0.385 4	0.044 4	0.118 5	0.777 4	0.000 2	0.000 4	0.200 3	0.000 1	0.000 3	0.000 1	0.148 4	0.502 4	0.500 2	0.419 4	0.159 5	0.281 4	0.404 5	0.317 3	0.000 1	0.000 1	0.200 3	0.000 4	0.077 3	0.000 3	0.000 1	0.750 3	0.200 3	0.715 4	0.021 4	0.551 2	0.828 5	0.000 3	0.000 1	0.743 4	0.059 5	0.000 3	0.000 3	0.000 2	0.000 3	0.125 5	0.648 3	0.000 2	0.191 2	0.500 1	0.669 4	0.502 4	0.000 5	0.568 4	0.000 2	0.516 4	0.000 1	0.000 3	0.000 2	0.305 5	0.000 1	0.000 2	0.000 1	0.825 1	0.833 2	0.021 5	0.918 2	0.000 3	0.000 3	0.191 4	0.346 4	0.100 4	0.981 3	1.000 1	0.286 4	0.000 2	0.000 5	0.000 3	0.868 4	0.648 5	0.292 3	0.000 3	0.375 3	1.000 1	0.000 3	0.500 2	0.000 4	0.333 1	0.000 2	0.538 5	0.000 1	0.000 1	0.213 5	0.518 4	0.098 4	0.528 1	0.250 3	0.997 3	0.284 5	0.677 3	0.398 3	0.167 4	0.790 4	0.000 1	0.000 2	0.618 5	0.903 5	0.200 5	0.000 1	0.333 1	0.333 4	0.000 1	0.442 3	0.083 4	0.213 4	0.587 4	0.131 5
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
CSC-Pretrain Inst.	0.275 5	0.466 5	0.218 4	0.110 5	0.625 3	0.007 5	0.500 1	0.000 1	0.000 1	0.000 1	0.000 5	0.222 5	0.377 4	1.000 1	0.661 5	0.400 3	0.000 4	0.000 3	0.000 3	0.119 5	0.000 2	0.000 5	0.277 4	0.685 4	0.067 3	0.000 1	0.132 3	0.000 1	0.000 2	0.000 4	0.367 4	0.000 2	0.000 1	0.000 4	0.000 1	0.591 3	0.055 4	0.783 5	0.000 3	0.014 3	0.500 2	0.161 4	0.278 3	0.000 2	0.000 1	0.667 2	0.768 2	0.500 2	0.866 2	1.000 1	0.829 5	0.000 4	0.019 5	0.555 5	0.000 3	0.000 3	0.305 5	0.000 3	0.750 1	0.200 4	0.783 4	0.429 3	0.395 3	0.677 2	0.020 5	0.286 3	0.584 5	0.000 2	0.000 4	0.115 5	0.000 1	0.000 3	0.000 1	0.145 5	0.423 5	0.500 2	0.364 5	0.369 4	0.571 1	0.448 3	0.206 5	0.000 1	0.000 1	0.200 3	0.106 1	0.065 5	0.000 3	0.000 1	0.750 3	0.200 3	0.774 2	0.000 5	0.501 3	0.841 4	0.000 3	0.000 1	0.692 5	0.063 4	0.000 3	0.000 3	0.000 2	0.000 3	0.500 4	0.649 2	0.000 2	0.084 4	0.125 4	0.719 1	0.413 5	0.004 4	0.450 5	0.000 2	0.638 1	0.000 1	0.000 3	0.000 2	0.505 3	0.000 1	0.000 2	0.000 1	0.727 3	0.833 2	0.221 2	0.779 5	0.000 3	0.000 3	0.168 5	0.311 5	0.125 2	0.571 4	0.500 5	0.143 5	0.000 2	0.250 4	0.000 3	0.869 2	0.667 4	0.162 5	0.000 3	0.250 4	1.000 1	0.000 3	0.500 2	0.000 4	0.000 3	0.000 2	0.689 4	0.000 1	0.000 1	0.312 4	0.383 5	0.114 3	0.333 3	0.000 4	0.997 3	0.420 3	0.613 4	0.212 5	0.500 2	0.819 2	0.000 1	0.000 2	0.768 2	1.000 1	0.918 1	0.000 1	0.000 4	0.278 5	0.000 1	0.333 5	0.000 5	0.353 2	0.546 5	0.258 4
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
LGround Inst.	0.314 3	0.529 3	0.225 3	0.155 3	0.578 5	0.010 3	0.500 1	0.000 1	0.000 1	0.000 1	0.515 2	0.556 3	0.696 1	1.000 1	0.927 3	0.400 3	0.083 3	0.000 3	1.000 1	0.252 1	0.000 2	0.167 3	0.350 2	0.731 2	0.067 3	0.000 1	0.123 4	0.000 1	0.000 2	0.036 3	0.372 3	0.000 2	0.000 1	0.250 1	0.000 1	0.569 4	0.031 5	0.810 3	0.000 3	0.000 4	0.630 1	0.183 2	0.278 3	0.000 2	0.000 1	0.582 4	0.589 5	0.500 2	0.863 3	1.000 1	0.940 2	0.000 4	0.144 1	0.716 3	0.000 3	0.000 3	0.484 3	0.000 3	0.500 3	0.400 3	0.798 3	0.500 2	0.278 4	0.750 1	0.093 3	0.166 4	0.783 3	0.000 2	0.200 2	0.400 2	0.000 1	0.000 3	0.000 1	0.219 2	0.539 3	0.500 2	0.578 3	0.413 3	0.181 5	0.457 2	0.375 2	0.000 1	0.000 1	0.050 5	0.000 4	0.077 4	0.000 3	0.000 1	0.500 5	0.000 5	0.743 3	0.250 2	0.488 4	0.846 3	0.000 3	0.000 1	0.800 3	0.069 3	0.000 3	0.000 3	0.000 2	0.000 3	1.000 1	0.607 4	0.000 2	0.200 1	0.500 1	0.694 2	0.528 2	0.063 3	0.659 2	0.000 2	0.594 2	0.000 1	0.000 3	0.000 2	0.571 2	0.000 1	0.000 2	0.000 1	0.716 4	0.647 5	0.221 2	0.857 4	0.000 3	0.000 3	0.217 3	0.346 3	0.071 5	0.530 5	1.000 1	0.429 3	0.000 2	0.286 3	0.000 3	0.826 5	0.706 3	0.208 4	0.000 3	0.250 4	0.744 5	0.000 3	0.500 2	0.042 1	0.000 3	0.000 2	0.746 3	0.000 1	0.000 1	0.517 1	0.625 3	0.085 5	0.333 3	0.000 4	1.000 1	0.378 4	0.533 5	0.376 4	0.042 5	0.814 3	0.000 1	0.000 2	0.765 3	1.000 1	0.600 3	0.000 1	0.000 4	0.667 3	0.000 1	0.472 1	0.333 2	0.337 3	0.605 3	0.305 2
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild.

ScanNet Benchmark

This table lists the benchmark results for the 3D semantic label scenario.

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

PTv3 ScanNet	0.794 1	0.941 3	0.813 17	0.851 7	0.782 5	0.890 2	0.597 1	0.916 2	0.696 7	0.713 3	0.979 1	0.635 1	0.384 2	0.793 2	0.907 7	0.821 4	0.790 30	0.696 10	0.967 3	0.903 1	0.805 1
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024
PonderV2	0.785 2	0.978 1	0.800 25	0.833 21	0.788 3	0.853 15	0.545 16	0.910 5	0.713 1	0.705 4	0.979 1	0.596 6	0.390 1	0.769 11	0.832 40	0.821 4	0.792 29	0.730 1	0.975 1	0.897 4	0.785 4
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
Mix3D	0.781 3	0.964 2	0.855 1	0.843 15	0.781 6	0.858 11	0.575 6	0.831 31	0.685 13	0.714 2	0.979 1	0.594 7	0.310 26	0.801 1	0.892 15	0.841 2	0.819 4	0.723 4	0.940 13	0.887 6	0.725 22
Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann: Mix3D: Out-of-Context Data Augmentation for 3D Scenes. 3DV 2021 (Oral)
Swin3D	0.779 4	0.861 20	0.818 13	0.836 18	0.790 2	0.875 4	0.576 5	0.905 6	0.704 4	0.739 1	0.969 10	0.611 2	0.349 10	0.756 20	0.958 1	0.702 43	0.805 14	0.708 7	0.916 31	0.898 3	0.801 2

TTT-KD	0.773 5	0.646 89	0.818 13	0.809 33	0.774 8	0.878 3	0.581 2	0.943 1	0.687 11	0.704 5	0.978 4	0.607 5	0.336 15	0.775 8	0.912 5	0.838 3	0.823 2	0.694 11	0.967 3	0.899 2	0.794 3
Lisa Weijler, Muhammad Jehanzeb Mirza, Leon Sick, Can Ekkazan, Pedro Hermosilla: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models.
ResLFE_HDS	0.772 6	0.939 4	0.824 6	0.854 6	0.771 9	0.840 29	0.564 10	0.900 8	0.686 12	0.677 11	0.961 16	0.537 29	0.348 11	0.769 11	0.903 9	0.785 10	0.815 6	0.676 20	0.939 14	0.880 11	0.772 8

OctFormer	0.766 7	0.925 7	0.808 21	0.849 9	0.786 4	0.846 25	0.566 9	0.876 14	0.690 9	0.674 13	0.960 17	0.576 16	0.226 65	0.753 22	0.904 8	0.777 12	0.815 6	0.722 5	0.923 27	0.877 13	0.776 7
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
PPT-SpUNet-Joint	0.766 7	0.932 5	0.794 31	0.829 23	0.751 21	0.854 13	0.540 20	0.903 7	0.630 32	0.672 14	0.963 14	0.565 20	0.357 8	0.788 3	0.900 11	0.737 25	0.802 15	0.685 15	0.950 7	0.887 6	0.780 5
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OccuSeg+Semantic	0.764 9	0.758 57	0.796 29	0.839 17	0.746 23	0.907 1	0.562 11	0.850 23	0.680 15	0.672 14	0.978 4	0.610 3	0.335 17	0.777 6	0.819 43	0.847 1	0.830 1	0.691 13	0.972 2	0.885 8	0.727 20

CU-Hybrid Net	0.764 9	0.924 8	0.819 11	0.840 16	0.757 16	0.853 15	0.580 3	0.848 24	0.709 3	0.643 22	0.958 20	0.587 11	0.295 32	0.753 22	0.884 19	0.758 19	0.815 6	0.725 3	0.927 24	0.867 20	0.743 14

O-CNN	0.762 11	0.924 8	0.823 7	0.844 14	0.770 10	0.852 17	0.577 4	0.847 26	0.711 2	0.640 26	0.958 20	0.592 8	0.217 71	0.762 16	0.888 16	0.758 19	0.813 10	0.726 2	0.932 22	0.868 19	0.744 13
Peng-Shuai Wang, Yang Liu, Yu-Xiao Guo, Chun-Yu Sun, Xin Tong: O-CNN: Octree-based Convolutional Neural Networks for 3D Shape Analysis. SIGGRAPH 2017
OA-CNN-L_ScanNet20	0.756 12	0.783 43	0.826 5	0.858 4	0.776 7	0.837 32	0.548 15	0.896 11	0.649 24	0.675 12	0.962 15	0.586 12	0.335 17	0.771 10	0.802 47	0.770 15	0.787 32	0.691 13	0.936 17	0.880 11	0.761 10

ConDaFormer	0.755 13	0.927 6	0.822 8	0.836 18	0.801 1	0.849 20	0.516 30	0.864 20	0.651 23	0.680 10	0.958 20	0.584 14	0.282 40	0.759 18	0.855 30	0.728 27	0.802 15	0.678 17	0.880 57	0.873 18	0.756 11
Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Guisong Xia, Dacheng Tao: ConDaFormer : Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding. Neurips, 2023
PNE	0.755 13	0.786 41	0.835 4	0.834 20	0.758 14	0.849 20	0.570 8	0.836 30	0.648 25	0.668 16	0.978 4	0.581 15	0.367 6	0.683 33	0.856 28	0.804 6	0.801 19	0.678 17	0.961 5	0.889 5	0.716 27
P. Hermosilla: Point Neighborhood Embeddings.
PointTransformerV2	0.752 15	0.742 65	0.809 20	0.872 1	0.758 14	0.860 10	0.552 13	0.891 12	0.610 39	0.687 6	0.960 17	0.559 23	0.304 29	0.766 14	0.926 3	0.767 16	0.797 22	0.644 31	0.942 11	0.876 16	0.722 24
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao: Point Transformer V2: Grouped Vector Attention and Partition-based Pooling. NeurIPS 2022
DMF-Net	0.752 15	0.906 12	0.793 33	0.802 39	0.689 38	0.825 44	0.556 12	0.867 16	0.681 14	0.602 42	0.960 17	0.555 25	0.365 7	0.779 5	0.859 25	0.747 22	0.795 26	0.717 6	0.917 30	0.856 28	0.764 9
C.Yang, Y.Yan, W.Zhao, J.Ye, X.Yang, A.Hussain, B.Dong, K.Huang: Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic Segmentation. ICONIP 2023
PointConvFormer	0.749 17	0.793 39	0.790 34	0.807 35	0.750 22	0.856 12	0.524 26	0.881 13	0.588 51	0.642 25	0.977 8	0.591 9	0.274 45	0.781 4	0.929 2	0.804 6	0.796 23	0.642 32	0.947 9	0.885 8	0.715 28
Wenxuan Wu, Qi Shan, Li Fuxin: PointConvFormer: Revenge of the Point-based Convolution.
BPNet	0.749 17	0.909 10	0.818 13	0.811 31	0.752 19	0.839 31	0.485 45	0.842 27	0.673 16	0.644 21	0.957 24	0.528 35	0.305 28	0.773 9	0.859 25	0.788 8	0.818 5	0.693 12	0.916 31	0.856 28	0.723 23
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MSP	0.748 19	0.623 92	0.804 23	0.859 3	0.745 24	0.824 46	0.501 35	0.912 4	0.690 9	0.685 8	0.956 25	0.567 19	0.320 23	0.768 13	0.918 4	0.720 32	0.802 15	0.676 20	0.921 28	0.881 10	0.779 6

StratifiedFormer	0.747 20	0.901 13	0.803 24	0.845 13	0.757 16	0.846 25	0.512 31	0.825 34	0.696 7	0.645 20	0.956 25	0.576 16	0.262 56	0.744 27	0.861 24	0.742 23	0.770 41	0.705 8	0.899 43	0.860 25	0.734 15
Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia: Stratified Transformer for 3D Point Cloud Segmentation. CVPR 2022
Virtual MVFusion	0.746 21	0.771 51	0.819 11	0.848 11	0.702 35	0.865 9	0.397 83	0.899 9	0.699 5	0.664 17	0.948 53	0.588 10	0.330 19	0.746 26	0.851 34	0.764 17	0.796 23	0.704 9	0.935 18	0.866 21	0.728 18
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
VMNet	0.746 21	0.870 18	0.838 2	0.858 4	0.729 29	0.850 19	0.501 35	0.874 15	0.587 52	0.658 18	0.956 25	0.564 21	0.299 30	0.765 15	0.900 11	0.716 35	0.812 11	0.631 37	0.939 14	0.858 26	0.709 29
Zeyu HU, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai: VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation. ICCV 2021 (Oral)
Retro-FPN	0.744 23	0.842 26	0.800 25	0.767 53	0.740 25	0.836 34	0.541 18	0.914 3	0.672 17	0.626 30	0.958 20	0.552 26	0.272 47	0.777 6	0.886 18	0.696 44	0.801 19	0.674 23	0.941 12	0.858 26	0.717 25
Peng Xiang, Xin Wen, Yu-Shen Liu, Hui Zhang, Yi Fang, Zhizhong Han: Retrospective Feature Pyramid Network for Point Cloud Semantic Segmentation. ICCV 2023
EQ-Net	0.743 24	0.620 93	0.799 28	0.849 9	0.730 28	0.822 48	0.493 42	0.897 10	0.664 18	0.681 9	0.955 28	0.562 22	0.378 3	0.760 17	0.903 9	0.738 24	0.801 19	0.673 24	0.907 35	0.877 13	0.745 12
Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya JIa: A Unified Query-based Paradigm for Point Cloud Understanding. CVPR 2022
LRPNet	0.742 25	0.816 34	0.806 22	0.807 35	0.752 19	0.828 42	0.575 6	0.839 29	0.699 5	0.637 27	0.954 34	0.520 38	0.320 23	0.755 21	0.834 38	0.760 18	0.772 38	0.676 20	0.915 33	0.862 23	0.717 25

SAT	0.742 25	0.860 21	0.765 47	0.819 26	0.769 11	0.848 22	0.533 22	0.829 32	0.663 19	0.631 29	0.955 28	0.586 12	0.274 45	0.753 22	0.896 13	0.729 26	0.760 48	0.666 26	0.921 28	0.855 30	0.733 16

LargeKernel3D	0.739 27	0.909 10	0.820 10	0.806 37	0.740 25	0.852 17	0.545 16	0.826 33	0.594 50	0.643 22	0.955 28	0.541 28	0.263 55	0.723 31	0.858 27	0.775 14	0.767 42	0.678 17	0.933 20	0.848 35	0.694 34
Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia: LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs. CVPR 2023
RPN	0.736 28	0.776 47	0.790 34	0.851 7	0.754 18	0.854 13	0.491 44	0.866 18	0.596 49	0.686 7	0.955 28	0.536 30	0.342 13	0.624 48	0.869 21	0.787 9	0.802 15	0.628 38	0.927 24	0.875 17	0.704 31

MinkowskiNet	0.736 28	0.859 22	0.818 13	0.832 22	0.709 33	0.840 29	0.521 28	0.853 22	0.660 21	0.643 22	0.951 43	0.544 27	0.286 38	0.731 29	0.893 14	0.675 53	0.772 38	0.683 16	0.874 64	0.852 33	0.727 20
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
IPCA	0.731 30	0.890 14	0.837 3	0.864 2	0.726 30	0.873 5	0.530 25	0.824 35	0.489 85	0.647 19	0.978 4	0.609 4	0.336 15	0.624 48	0.733 56	0.758 19	0.776 36	0.570 63	0.949 8	0.877 13	0.728 18

SparseConvNet	0.725 31	0.647 88	0.821 9	0.846 12	0.721 31	0.869 6	0.533 22	0.754 56	0.603 45	0.614 34	0.955 28	0.572 18	0.325 21	0.710 32	0.870 20	0.724 30	0.823 2	0.628 38	0.934 19	0.865 22	0.683 37

PointTransformer++	0.725 31	0.727 73	0.811 19	0.819 26	0.765 12	0.841 28	0.502 34	0.814 40	0.621 35	0.623 32	0.955 28	0.556 24	0.284 39	0.620 50	0.866 22	0.781 11	0.757 52	0.648 29	0.932 22	0.862 23	0.709 29

MatchingNet	0.724 33	0.812 36	0.812 18	0.810 32	0.735 27	0.834 36	0.495 41	0.860 21	0.572 59	0.602 42	0.954 34	0.512 40	0.280 42	0.757 19	0.845 36	0.725 29	0.780 34	0.606 48	0.937 16	0.851 34	0.700 33

INS-Conv-semantic	0.717 34	0.751 60	0.759 50	0.812 30	0.704 34	0.868 7	0.537 21	0.842 27	0.609 41	0.608 38	0.953 37	0.534 32	0.293 33	0.616 51	0.864 23	0.719 34	0.793 27	0.640 33	0.933 20	0.845 39	0.663 43

PointMetaBase	0.714 35	0.835 27	0.785 36	0.821 24	0.684 40	0.846 25	0.531 24	0.865 19	0.614 36	0.596 46	0.953 37	0.500 43	0.246 61	0.674 34	0.888 16	0.692 45	0.764 44	0.624 40	0.849 79	0.844 40	0.675 39

contrastBoundary	0.705 36	0.769 54	0.775 41	0.809 33	0.687 39	0.820 51	0.439 71	0.812 41	0.661 20	0.591 48	0.945 61	0.515 39	0.171 89	0.633 45	0.856 28	0.720 32	0.796 23	0.668 25	0.889 50	0.847 36	0.689 35
Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao: Contrastive Boundary Learning for Point Cloud Segmentation. CVPR2022
ClickSeg_Semantic	0.703 37	0.774 49	0.800 25	0.793 44	0.760 13	0.847 24	0.471 49	0.802 44	0.463 92	0.634 28	0.968 12	0.491 46	0.271 49	0.726 30	0.910 6	0.706 39	0.815 6	0.551 75	0.878 58	0.833 41	0.570 75

RFCR	0.702 38	0.889 15	0.745 61	0.813 29	0.672 43	0.818 55	0.493 42	0.815 39	0.623 33	0.610 36	0.947 55	0.470 55	0.249 60	0.594 54	0.848 35	0.705 40	0.779 35	0.646 30	0.892 48	0.823 47	0.611 58
Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma: Omni-Supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning. CVPR2021
One Thing One Click	0.701 39	0.825 31	0.796 29	0.723 60	0.716 32	0.832 38	0.433 73	0.816 37	0.634 30	0.609 37	0.969 10	0.418 81	0.344 12	0.559 66	0.833 39	0.715 36	0.808 13	0.560 69	0.902 40	0.847 36	0.680 38

JSENet	0.699 40	0.881 17	0.762 48	0.821 24	0.667 44	0.800 67	0.522 27	0.792 47	0.613 37	0.607 39	0.935 81	0.492 45	0.205 76	0.576 59	0.853 32	0.691 47	0.758 50	0.652 28	0.872 67	0.828 44	0.649 47
Zeyu HU, Mingmin Zhen, Xuyang BAI, Hongbo Fu, Chiew-lan Tai: JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D Point Clouds. ECCV 2020
One-Thing-One-Click	0.693 41	0.743 64	0.794 31	0.655 83	0.684 40	0.822 48	0.497 40	0.719 66	0.622 34	0.617 33	0.977 8	0.447 68	0.339 14	0.750 25	0.664 72	0.703 42	0.790 30	0.596 53	0.946 10	0.855 30	0.647 48
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
PicassoNet-II	0.692 42	0.732 69	0.772 42	0.786 45	0.677 42	0.866 8	0.517 29	0.848 24	0.509 78	0.626 30	0.952 41	0.536 30	0.225 67	0.545 72	0.704 63	0.689 50	0.810 12	0.564 68	0.903 39	0.854 32	0.729 17
Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian: Geometric feature learning for 3D meshes.
Feature_GeometricNet	0.690 43	0.884 16	0.754 54	0.795 42	0.647 51	0.818 55	0.422 75	0.802 44	0.612 38	0.604 40	0.945 61	0.462 58	0.189 84	0.563 65	0.853 32	0.726 28	0.765 43	0.632 36	0.904 37	0.821 50	0.606 62
Kangcheng Liu, Ben M. Chen: https://arxiv.org/abs/2012.09439. arXiv Preprint
FusionNet	0.688 44	0.704 78	0.741 65	0.754 57	0.656 46	0.829 40	0.501 35	0.741 61	0.609 41	0.548 56	0.950 47	0.522 37	0.371 4	0.633 45	0.756 51	0.715 36	0.771 40	0.623 41	0.861 75	0.814 53	0.658 44
Feihu Zhang, Jin Fang, Benjamin Wah, Philip Torr: Deep FusionNet for Point Cloud Semantic Segmentation. ECCV 2020
Feature-Geometry Net	0.685 45	0.866 19	0.748 58	0.819 26	0.645 53	0.794 70	0.450 61	0.802 44	0.587 52	0.604 40	0.945 61	0.464 57	0.201 79	0.554 68	0.840 37	0.723 31	0.732 62	0.602 51	0.907 35	0.822 49	0.603 65

KP-FCNN	0.684 46	0.847 25	0.758 52	0.784 47	0.647 51	0.814 58	0.473 48	0.772 50	0.605 43	0.594 47	0.935 81	0.450 66	0.181 87	0.587 55	0.805 46	0.690 48	0.785 33	0.614 44	0.882 54	0.819 51	0.632 54
H. Thomas, C. Qi, J. Deschaud, B. Marcotegui, F. Goulette, L. Guibas.: KPConv: Flexible and Deformable Convolution for Point Clouds. ICCV 2019
VACNN++	0.684 46	0.728 72	0.757 53	0.776 50	0.690 36	0.804 65	0.464 54	0.816 37	0.577 58	0.587 49	0.945 61	0.508 42	0.276 44	0.671 35	0.710 61	0.663 58	0.750 56	0.589 58	0.881 55	0.832 43	0.653 46

DGNet	0.684 46	0.712 77	0.784 37	0.782 49	0.658 45	0.835 35	0.499 39	0.823 36	0.641 27	0.597 45	0.950 47	0.487 48	0.281 41	0.575 60	0.619 76	0.647 66	0.764 44	0.620 43	0.871 70	0.846 38	0.688 36

Superpoint Network	0.683 49	0.851 24	0.728 69	0.800 41	0.653 48	0.806 63	0.468 51	0.804 42	0.572 59	0.602 42	0.946 58	0.453 65	0.239 64	0.519 77	0.822 41	0.689 50	0.762 47	0.595 55	0.895 46	0.827 45	0.630 55

PointContrast_LA_SEM	0.683 49	0.757 58	0.784 37	0.786 45	0.639 55	0.824 46	0.408 78	0.775 49	0.604 44	0.541 58	0.934 85	0.532 33	0.269 51	0.552 69	0.777 49	0.645 69	0.793 27	0.640 33	0.913 34	0.824 46	0.671 40

VI-PointConv	0.676 51	0.770 53	0.754 54	0.783 48	0.621 59	0.814 58	0.552 13	0.758 54	0.571 61	0.557 54	0.954 34	0.529 34	0.268 53	0.530 75	0.682 67	0.675 53	0.719 65	0.603 50	0.888 51	0.833 41	0.665 42
Xingyi Li, Wenxuan Wu, Xiaoli Z. Fern, Li Fuxin: The Devils in the Point Clouds: Studying the Robustness of Point Cloud Convolutions.
ROSMRF3D	0.673 52	0.789 40	0.748 58	0.763 55	0.635 57	0.814 58	0.407 80	0.747 58	0.581 56	0.573 51	0.950 47	0.484 49	0.271 49	0.607 52	0.754 52	0.649 63	0.774 37	0.596 53	0.883 53	0.823 47	0.606 62

SALANet	0.670 53	0.816 34	0.770 45	0.768 52	0.652 49	0.807 62	0.451 58	0.747 58	0.659 22	0.545 57	0.924 91	0.473 54	0.149 99	0.571 62	0.811 45	0.635 72	0.746 57	0.623 41	0.892 48	0.794 66	0.570 75

O3DSeg	0.668 54	0.822 32	0.771 44	0.496 103	0.651 50	0.833 37	0.541 18	0.761 53	0.555 67	0.611 35	0.966 13	0.489 47	0.370 5	0.388 97	0.580 79	0.776 13	0.751 54	0.570 63	0.956 6	0.817 52	0.646 49

PointConv	0.666 55	0.781 44	0.759 50	0.699 68	0.644 54	0.822 48	0.475 47	0.779 48	0.564 64	0.504 74	0.953 37	0.428 75	0.203 78	0.586 57	0.754 52	0.661 59	0.753 53	0.588 59	0.902 40	0.813 55	0.642 50
Wenxuan Wu, Zhongang Qi, Li Fuxin: PointConv: Deep Convolutional Networks on 3D Point Clouds. CVPR 2019
PointASNL	0.666 55	0.703 79	0.781 39	0.751 59	0.655 47	0.830 39	0.471 49	0.769 51	0.474 88	0.537 60	0.951 43	0.475 53	0.279 43	0.635 43	0.698 66	0.675 53	0.751 54	0.553 74	0.816 86	0.806 57	0.703 32
Xu Yan, Chaoda Zheng, Zhen Li, Sheng Wang, Shuguang Cui: PointASNL: Robust Point Clouds Processing using Nonlocal Neural Networks with Adaptive Sampling. CVPR 2020
PPCNN++	0.663 57	0.746 62	0.708 72	0.722 61	0.638 56	0.820 51	0.451 58	0.566 94	0.599 47	0.541 58	0.950 47	0.510 41	0.313 25	0.648 40	0.819 43	0.616 77	0.682 80	0.590 57	0.869 71	0.810 56	0.656 45
Pyunghwan Ahn, Juyoung Yang, Eojindl Yi, Chanho Lee, Junmo Kim: Projection-based Point Convolution for Efficient Point Cloud Segmentation. IEEE Access
MVF-GNN	0.658 58	0.558 100	0.751 56	0.655 83	0.690 36	0.722 92	0.453 57	0.867 16	0.579 57	0.576 50	0.893 103	0.523 36	0.293 33	0.733 28	0.571 81	0.692 45	0.659 87	0.606 48	0.875 61	0.804 59	0.668 41

DCM-Net	0.658 58	0.778 45	0.702 75	0.806 37	0.619 60	0.813 61	0.468 51	0.693 74	0.494 81	0.524 66	0.941 73	0.449 67	0.298 31	0.510 79	0.821 42	0.675 53	0.727 64	0.568 66	0.826 84	0.803 60	0.637 52
Jonas Schult, Francis Engelmann, Theodora Kontogianni, Bastian Leibe: DualConvMesh-Net: Joint Geodesic and Euclidean Convolutions on 3D Meshes. CVPR 2020 [Oral]
HPGCNN	0.656 60	0.698 81	0.743 63	0.650 85	0.564 77	0.820 51	0.505 33	0.758 54	0.631 31	0.479 78	0.945 61	0.480 51	0.226 65	0.572 61	0.774 50	0.690 48	0.735 60	0.614 44	0.853 78	0.776 81	0.597 68
Jisheng Dang, Qingyong Hu, Yulan Guo, Jun Yang: HPGCNN.
SAFNet-seg	0.654 61	0.752 59	0.734 67	0.664 81	0.583 72	0.815 57	0.399 82	0.754 56	0.639 28	0.535 62	0.942 71	0.470 55	0.309 27	0.665 36	0.539 83	0.650 62	0.708 70	0.635 35	0.857 77	0.793 68	0.642 50
Linqing Zhao, Jiwen Lu, Jie Zhou: Similarity-Aware Fusion Network for 3D Semantic Segmentation. IROS 2021
RandLA-Net	0.645 62	0.778 45	0.731 68	0.699 68	0.577 73	0.829 40	0.446 63	0.736 62	0.477 87	0.523 68	0.945 61	0.454 62	0.269 51	0.484 87	0.749 55	0.618 75	0.738 58	0.599 52	0.827 83	0.792 71	0.621 57

PointConv-SFPN	0.641 63	0.776 47	0.703 74	0.721 62	0.557 80	0.826 43	0.451 58	0.672 79	0.563 65	0.483 77	0.943 70	0.425 78	0.162 94	0.644 41	0.726 57	0.659 60	0.709 69	0.572 62	0.875 61	0.786 76	0.559 81

MVPNet	0.641 63	0.831 28	0.715 70	0.671 78	0.590 68	0.781 76	0.394 84	0.679 76	0.642 26	0.553 55	0.937 78	0.462 58	0.256 57	0.649 39	0.406 97	0.626 73	0.691 77	0.666 26	0.877 59	0.792 71	0.608 61
Maximilian Jaritz, Jiayuan Gu, Hao Su: Multi-view PointNet for 3D Scene Understanding. GMDL Workshop, ICCV 2019
PointMRNet	0.640 65	0.717 76	0.701 76	0.692 71	0.576 74	0.801 66	0.467 53	0.716 67	0.563 65	0.459 84	0.953 37	0.429 74	0.169 91	0.581 58	0.854 31	0.605 78	0.710 67	0.550 76	0.894 47	0.793 68	0.575 73

FPConv	0.639 66	0.785 42	0.760 49	0.713 66	0.603 63	0.798 68	0.392 85	0.534 99	0.603 45	0.524 66	0.948 53	0.457 60	0.250 59	0.538 73	0.723 59	0.598 82	0.696 75	0.614 44	0.872 67	0.799 61	0.567 78
Yiqun Lin, Zizheng Yan, Haibin Huang, Dong Du, Ligang Liu, Shuguang Cui, Xiaoguang Han: FPConv: Learning Local Flattening for Point Convolution. CVPR 2020
PD-Net	0.638 67	0.797 38	0.769 46	0.641 91	0.590 68	0.820 51	0.461 55	0.537 98	0.637 29	0.536 61	0.947 55	0.388 88	0.206 75	0.656 37	0.668 70	0.647 66	0.732 62	0.585 60	0.868 72	0.793 68	0.473 101

PointSPNet	0.637 68	0.734 68	0.692 83	0.714 65	0.576 74	0.797 69	0.446 63	0.743 60	0.598 48	0.437 89	0.942 71	0.403 84	0.150 98	0.626 47	0.800 48	0.649 63	0.697 74	0.557 72	0.846 80	0.777 80	0.563 79

SConv	0.636 69	0.830 29	0.697 79	0.752 58	0.572 76	0.780 78	0.445 65	0.716 67	0.529 71	0.530 63	0.951 43	0.446 69	0.170 90	0.507 82	0.666 71	0.636 71	0.682 80	0.541 82	0.886 52	0.799 61	0.594 69

Supervoxel-CNN	0.635 70	0.656 86	0.711 71	0.719 63	0.613 61	0.757 87	0.444 68	0.765 52	0.534 70	0.566 52	0.928 89	0.478 52	0.272 47	0.636 42	0.531 85	0.664 57	0.645 91	0.508 89	0.864 74	0.792 71	0.611 58

joint point-based	0.634 71	0.614 94	0.778 40	0.667 80	0.633 58	0.825 44	0.420 76	0.804 42	0.467 90	0.561 53	0.951 43	0.494 44	0.291 35	0.566 63	0.458 92	0.579 88	0.764 44	0.559 71	0.838 81	0.814 53	0.598 67
Hung-Yueh Chiang, Yen-Liang Lin, Yueh-Cheng Liu, Winston H. Hsu: A Unified Point-Based Framework for 3D Segmentation. 3DV 2019
PointMTL	0.632 72	0.731 70	0.688 86	0.675 75	0.591 67	0.784 75	0.444 68	0.565 95	0.610 39	0.492 75	0.949 51	0.456 61	0.254 58	0.587 55	0.706 62	0.599 81	0.665 86	0.612 47	0.868 72	0.791 74	0.579 72

3DSM_DMMF	0.631 73	0.626 91	0.745 61	0.801 40	0.607 62	0.751 88	0.506 32	0.729 65	0.565 63	0.491 76	0.866 106	0.434 70	0.197 82	0.595 53	0.630 75	0.709 38	0.705 72	0.560 69	0.875 61	0.740 91	0.491 96

PointNet2-SFPN	0.631 73	0.771 51	0.692 83	0.672 76	0.524 85	0.837 32	0.440 70	0.706 72	0.538 69	0.446 86	0.944 67	0.421 80	0.219 70	0.552 69	0.751 54	0.591 84	0.737 59	0.543 81	0.901 42	0.768 83	0.557 82

APCF-Net	0.631 73	0.742 65	0.687 88	0.672 76	0.557 80	0.792 73	0.408 78	0.665 80	0.545 68	0.508 71	0.952 41	0.428 75	0.186 85	0.634 44	0.702 64	0.620 74	0.706 71	0.555 73	0.873 65	0.798 63	0.581 71
Haojia, Lin: Adaptive Pyramid Context Fusion for Point Cloud Perception. GRSL
FusionAwareConv	0.630 76	0.604 96	0.741 65	0.766 54	0.590 68	0.747 89	0.501 35	0.734 63	0.503 80	0.527 64	0.919 95	0.454 62	0.323 22	0.550 71	0.420 96	0.678 52	0.688 78	0.544 79	0.896 45	0.795 65	0.627 56
Jiazhao Zhang, Chenyang Zhu, Lintao Zheng, Kai Xu: Fusion-Aware Point Convolution for Online Semantic 3D Scene Segmentation. CVPR 2020
DenSeR	0.628 77	0.800 37	0.625 99	0.719 63	0.545 82	0.806 63	0.445 65	0.597 88	0.448 95	0.519 69	0.938 77	0.481 50	0.328 20	0.489 86	0.499 90	0.657 61	0.759 49	0.592 56	0.881 55	0.797 64	0.634 53

SegGroup_sem	0.627 78	0.818 33	0.747 60	0.701 67	0.602 64	0.764 84	0.385 89	0.629 85	0.490 83	0.508 71	0.931 88	0.409 83	0.201 79	0.564 64	0.725 58	0.618 75	0.692 76	0.539 83	0.873 65	0.794 66	0.548 85
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
SIConv	0.625 79	0.830 29	0.694 81	0.757 56	0.563 78	0.772 82	0.448 62	0.647 83	0.520 74	0.509 70	0.949 51	0.431 73	0.191 83	0.496 84	0.614 77	0.647 66	0.672 84	0.535 85	0.876 60	0.783 77	0.571 74

dtc_net	0.625 79	0.703 79	0.751 56	0.794 43	0.535 83	0.848 22	0.480 46	0.676 78	0.528 72	0.469 81	0.944 67	0.454 62	0.004 112	0.464 89	0.636 74	0.704 41	0.758 50	0.548 78	0.924 26	0.787 75	0.492 95

HPEIN	0.618 81	0.729 71	0.668 89	0.647 87	0.597 66	0.766 83	0.414 77	0.680 75	0.520 74	0.525 65	0.946 58	0.432 71	0.215 72	0.493 85	0.599 78	0.638 70	0.617 96	0.570 63	0.897 44	0.806 57	0.605 64
Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi-Wing Fu, Jiaya Jia: Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation. ICCV 2019
SPH3D-GCN	0.610 82	0.858 23	0.772 42	0.489 104	0.532 84	0.792 73	0.404 81	0.643 84	0.570 62	0.507 73	0.935 81	0.414 82	0.046 109	0.510 79	0.702 64	0.602 80	0.705 72	0.549 77	0.859 76	0.773 82	0.534 88
Huan Lei, Naveed Akhtar, and Ajmal Mian: Spherical Kernel for Efficient Graph Convolution on 3D Point Clouds. TPAMI 2020
AttAN	0.609 83	0.760 56	0.667 90	0.649 86	0.521 86	0.793 71	0.457 56	0.648 82	0.528 72	0.434 91	0.947 55	0.401 85	0.153 97	0.454 90	0.721 60	0.648 65	0.717 66	0.536 84	0.904 37	0.765 84	0.485 97
Gege Zhang, Qinghua Ma, Licheng Jiao, Fang Liu and Qigong Sun: AttAN: Attention Adversarial Networks for 3D Point Cloud Semantic Segmentation. IJCAI2020
wsss-transformer	0.600 84	0.634 90	0.743 63	0.697 70	0.601 65	0.781 76	0.437 72	0.585 91	0.493 82	0.446 86	0.933 86	0.394 86	0.011 111	0.654 38	0.661 73	0.603 79	0.733 61	0.526 86	0.832 82	0.761 86	0.480 98

LAP-D	0.594 85	0.720 74	0.692 83	0.637 92	0.456 96	0.773 81	0.391 87	0.730 64	0.587 52	0.445 88	0.940 75	0.381 89	0.288 36	0.434 93	0.453 94	0.591 84	0.649 89	0.581 61	0.777 90	0.749 90	0.610 60

DPC	0.592 86	0.720 74	0.700 77	0.602 96	0.480 92	0.762 86	0.380 90	0.713 70	0.585 55	0.437 89	0.940 75	0.369 91	0.288 36	0.434 93	0.509 89	0.590 86	0.639 94	0.567 67	0.772 92	0.755 88	0.592 70
Francis Engelmann, Theodora Kontogianni, Bastian Leibe: Dilated Point Convolutions: On the Receptive Field Size of Point Convolutions on 3D Point Clouds. ICRA 2020
CCRFNet	0.589 87	0.766 55	0.659 94	0.683 73	0.470 95	0.740 91	0.387 88	0.620 87	0.490 83	0.476 79	0.922 93	0.355 94	0.245 62	0.511 78	0.511 88	0.571 89	0.643 92	0.493 93	0.872 67	0.762 85	0.600 66

ROSMRF	0.580 88	0.772 50	0.707 73	0.681 74	0.563 78	0.764 84	0.362 92	0.515 100	0.465 91	0.465 83	0.936 80	0.427 77	0.207 74	0.438 91	0.577 80	0.536 92	0.675 83	0.486 94	0.723 98	0.779 78	0.524 91

SD-DETR	0.576 89	0.746 62	0.609 103	0.445 108	0.517 87	0.643 103	0.366 91	0.714 69	0.456 93	0.468 82	0.870 105	0.432 71	0.264 54	0.558 67	0.674 68	0.586 87	0.688 78	0.482 95	0.739 96	0.733 93	0.537 87

SQN_0.1%	0.569 90	0.676 83	0.696 80	0.657 82	0.497 88	0.779 79	0.424 74	0.548 96	0.515 76	0.376 96	0.902 102	0.422 79	0.357 8	0.379 98	0.456 93	0.596 83	0.659 87	0.544 79	0.685 101	0.665 104	0.556 83

TextureNet	0.566 91	0.672 85	0.664 91	0.671 78	0.494 90	0.719 93	0.445 65	0.678 77	0.411 101	0.396 94	0.935 81	0.356 93	0.225 67	0.412 95	0.535 84	0.565 90	0.636 95	0.464 97	0.794 89	0.680 101	0.568 77
Jingwei Huang, Haotian Zhang, Li Yi, Thomas Funkerhouser, Matthias Niessner, Leonidas Guibas: TextureNet: Consistent Local Parametrizations for Learning from High-Resolution Signals on Meshes. CVPR
DVVNet	0.562 92	0.648 87	0.700 77	0.770 51	0.586 71	0.687 97	0.333 96	0.650 81	0.514 77	0.475 80	0.906 99	0.359 92	0.223 69	0.340 100	0.442 95	0.422 103	0.668 85	0.501 90	0.708 99	0.779 78	0.534 88

Pointnet++ & Feature	0.557 93	0.735 67	0.661 93	0.686 72	0.491 91	0.744 90	0.392 85	0.539 97	0.451 94	0.375 97	0.946 58	0.376 90	0.205 76	0.403 96	0.356 100	0.553 91	0.643 92	0.497 91	0.824 85	0.756 87	0.515 92

GMLPs	0.538 94	0.495 105	0.693 82	0.647 87	0.471 94	0.793 71	0.300 99	0.477 101	0.505 79	0.358 99	0.903 101	0.327 97	0.081 106	0.472 88	0.529 86	0.448 101	0.710 67	0.509 87	0.746 94	0.737 92	0.554 84

PanopticFusion-label	0.529 95	0.491 106	0.688 86	0.604 95	0.386 101	0.632 104	0.225 109	0.705 73	0.434 98	0.293 105	0.815 107	0.348 95	0.241 63	0.499 83	0.669 69	0.507 94	0.649 89	0.442 103	0.796 88	0.602 108	0.561 80
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
subcloud_weak	0.516 96	0.676 83	0.591 106	0.609 93	0.442 97	0.774 80	0.335 95	0.597 88	0.422 100	0.357 100	0.932 87	0.341 96	0.094 105	0.298 102	0.528 87	0.473 99	0.676 82	0.495 92	0.602 107	0.721 96	0.349 108

Online SegFusion	0.515 97	0.607 95	0.644 97	0.579 98	0.434 98	0.630 105	0.353 93	0.628 86	0.440 96	0.410 92	0.762 111	0.307 99	0.167 92	0.520 76	0.403 98	0.516 93	0.565 99	0.447 101	0.678 102	0.701 98	0.514 93
Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstroem, Cristian Sminchisescu, Luc van Gool: A Real-Time Learning Framework for Joint 3D Reconstruction and Semantic Segmentation. Robotics and Automation Letters Submission
3DMV, FTSDF	0.501 98	0.558 100	0.608 104	0.424 110	0.478 93	0.690 96	0.246 105	0.586 90	0.468 89	0.450 85	0.911 97	0.394 86	0.160 95	0.438 91	0.212 107	0.432 102	0.541 105	0.475 96	0.742 95	0.727 94	0.477 99

PCNN	0.498 99	0.559 99	0.644 97	0.560 100	0.420 100	0.711 95	0.229 107	0.414 102	0.436 97	0.352 101	0.941 73	0.324 98	0.155 96	0.238 107	0.387 99	0.493 95	0.529 106	0.509 87	0.813 87	0.751 89	0.504 94

Weakly-Openseg v3	0.489 100	0.749 61	0.664 91	0.646 89	0.496 89	0.559 109	0.122 112	0.577 92	0.257 112	0.364 98	0.805 108	0.198 110	0.096 104	0.510 79	0.496 91	0.361 107	0.563 100	0.359 110	0.777 90	0.644 105	0.532 90

3DMV	0.484 101	0.484 107	0.538 108	0.643 90	0.424 99	0.606 108	0.310 97	0.574 93	0.433 99	0.378 95	0.796 109	0.301 100	0.214 73	0.537 74	0.208 108	0.472 100	0.507 109	0.413 106	0.693 100	0.602 108	0.539 86
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
PointCNN with RGB	0.458 102	0.577 98	0.611 102	0.356 112	0.321 109	0.715 94	0.299 101	0.376 106	0.328 108	0.319 103	0.944 67	0.285 102	0.164 93	0.216 110	0.229 105	0.484 97	0.545 104	0.456 99	0.755 93	0.709 97	0.475 100
Yangyan Li, Rui Bu, Mingchao Sun, Baoquan Chen: PointCNN. NeurIPS 2018
FCPN	0.447 103	0.679 82	0.604 105	0.578 99	0.380 102	0.682 98	0.291 102	0.106 112	0.483 86	0.258 110	0.920 94	0.258 106	0.025 110	0.231 109	0.325 101	0.480 98	0.560 102	0.463 98	0.725 97	0.666 103	0.231 112
Dario Rethage, Johanna Wald, Jürgen Sturm, Nassir Navab, Federico Tombari: Fully-Convolutional Point Networks for Large-Scale Point Clouds. ECCV 2018
DGCNN_reproduce	0.446 104	0.474 108	0.623 100	0.463 106	0.366 104	0.651 101	0.310 97	0.389 105	0.349 106	0.330 102	0.937 78	0.271 104	0.126 101	0.285 103	0.224 106	0.350 109	0.577 98	0.445 102	0.625 105	0.723 95	0.394 104
Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E. Sarma, Michael M. Bronstein, Justin M. Solomon: Dynamic Graph CNN for Learning on Point Clouds. TOG 2019
PNET2	0.442 105	0.548 102	0.548 107	0.597 97	0.363 105	0.628 106	0.300 99	0.292 107	0.374 103	0.307 104	0.881 104	0.268 105	0.186 85	0.238 107	0.204 109	0.407 104	0.506 110	0.449 100	0.667 103	0.620 107	0.462 102

SurfaceConvPF	0.442 105	0.505 104	0.622 101	0.380 111	0.342 107	0.654 100	0.227 108	0.397 104	0.367 104	0.276 107	0.924 91	0.240 107	0.198 81	0.359 99	0.262 103	0.366 105	0.581 97	0.435 104	0.640 104	0.668 102	0.398 103
Hao Pan, Shilin Liu, Yang Liu, Xin Tong: Convolutional Neural Networks on 3D Surfaces Using Parallel Frames.
Tangent Convolutions	0.438 107	0.437 110	0.646 96	0.474 105	0.369 103	0.645 102	0.353 93	0.258 109	0.282 110	0.279 106	0.918 96	0.298 101	0.147 100	0.283 104	0.294 102	0.487 96	0.562 101	0.427 105	0.619 106	0.633 106	0.352 107
Maxim Tatarchenko, Jaesik Park, Vladlen Koltun, Qian-Yi Zhou: Tangent convolutions for dense prediction in 3d. CVPR 2018
3DWSSS	0.425 108	0.525 103	0.647 95	0.522 101	0.324 108	0.488 112	0.077 113	0.712 71	0.353 105	0.401 93	0.636 113	0.281 103	0.176 88	0.340 100	0.565 82	0.175 113	0.551 103	0.398 107	0.370 113	0.602 108	0.361 106

SPLAT Net	0.393 109	0.472 109	0.511 109	0.606 94	0.311 110	0.656 99	0.245 106	0.405 103	0.328 108	0.197 111	0.927 90	0.227 109	0.000 114	0.001 114	0.249 104	0.271 112	0.510 107	0.383 109	0.593 108	0.699 99	0.267 110
Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz: SPLATNet: Sparse Lattice Networks for Point Cloud Processing. CVPR 2018
ScanNet+FTSDF	0.383 110	0.297 112	0.491 110	0.432 109	0.358 106	0.612 107	0.274 103	0.116 111	0.411 101	0.265 108	0.904 100	0.229 108	0.079 107	0.250 105	0.185 110	0.320 110	0.510 107	0.385 108	0.548 109	0.597 111	0.394 104

PointNet++	0.339 111	0.584 97	0.478 111	0.458 107	0.256 112	0.360 113	0.250 104	0.247 110	0.278 111	0.261 109	0.677 112	0.183 111	0.117 102	0.212 111	0.145 112	0.364 106	0.346 113	0.232 113	0.548 109	0.523 112	0.252 111
Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas: pointnet++: deep hierarchical feature learning on point sets in a metric space.
SSC-UNet	0.308 112	0.353 111	0.290 113	0.278 113	0.166 113	0.553 110	0.169 111	0.286 108	0.147 113	0.148 113	0.908 98	0.182 112	0.064 108	0.023 113	0.018 114	0.354 108	0.363 111	0.345 111	0.546 111	0.685 100	0.278 109

ScanNet	0.306 113	0.203 113	0.366 112	0.501 102	0.311 110	0.524 111	0.211 110	0.002 114	0.342 107	0.189 112	0.786 110	0.145 113	0.102 103	0.245 106	0.152 111	0.318 111	0.348 112	0.300 112	0.460 112	0.437 113	0.182 113
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17
ERROR	0.054 114	0.000 114	0.041 114	0.172 114	0.030 114	0.062 114	0.001 114	0.035 113	0.004 114	0.051 114	0.143 114	0.019 114	0.003 113	0.041 112	0.050 113	0.003 114	0.054 114	0.018 114	0.005 114	0.264 114	0.082 114

This table lists the benchmark results for the 3D semantic instance scenario.

Method	avg ap 25%	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

OneFormer3D	0.896 1	1.000 1	1.000 1	0.913 5	0.858 4	0.951 3	0.786 9	0.837 14	0.916 8	0.908 2	0.778 4	0.803 2	0.750 11	1.000 1	0.976 2	0.926 4	0.882 5	0.995 40	0.849 1
Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: OneFormer3D: One Transformer for Unified Point Cloud Segmentation.
UniPerception	0.884 2	1.000 1	0.979 15	0.872 14	0.869 2	0.892 20	0.806 6	0.890 5	0.835 22	0.892 4	0.755 10	0.811 1	0.779 8	0.955 40	0.951 3	0.876 19	0.914 1	0.997 34	0.840 2

TST3D	0.879 3	1.000 1	0.994 5	0.921 4	0.807 15	0.939 8	0.771 10	0.887 6	0.923 6	0.862 10	0.722 15	0.768 7	0.756 10	1.000 1	0.910 22	0.904 6	0.836 19	0.999 33	0.824 5

Spherical Mask(CtoF)	0.875 4	1.000 1	0.991 10	0.873 13	0.850 5	0.946 5	0.691 19	0.752 28	0.926 4	0.889 6	0.759 8	0.794 4	0.820 2	1.000 1	0.912 13	0.900 8	0.878 9	1.000 1	0.769 15

TD3D	0.875 4	1.000 1	0.976 18	0.877 11	0.783 21	0.970 1	0.889 1	0.828 15	0.945 3	0.803 15	0.713 17	0.720 17	0.709 14	1.000 1	0.936 9	0.934 3	0.873 12	1.000 1	0.791 12
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
Queryformer	0.874 6	1.000 1	0.978 17	0.809 30	0.876 1	0.936 10	0.702 16	0.716 33	0.920 7	0.875 9	0.766 5	0.772 6	0.818 4	1.000 1	0.995 1	0.916 5	0.892 2	1.000 1	0.767 16

SoftGroup++	0.874 6	1.000 1	0.972 19	0.947 1	0.839 8	0.898 19	0.556 33	0.913 2	0.881 14	0.756 17	0.828 2	0.748 11	0.821 1	1.000 1	0.937 8	0.937 1	0.887 3	1.000 1	0.821 6

Mask3D	0.870 8	1.000 1	0.985 12	0.782 38	0.818 13	0.938 9	0.760 11	0.749 29	0.923 5	0.877 8	0.760 7	0.785 5	0.820 2	1.000 1	0.912 13	0.864 30	0.878 9	0.983 46	0.825 4
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
ExtMask3D	0.867 9	1.000 1	1.000 1	0.756 45	0.816 14	0.940 7	0.795 7	0.760 27	0.862 16	0.888 7	0.739 12	0.763 8	0.774 9	1.000 1	0.929 11	0.878 18	0.879 7	1.000 1	0.819 8

SoftGroup	0.865 10	1.000 1	0.969 20	0.860 16	0.860 3	0.913 14	0.558 30	0.899 3	0.911 9	0.760 16	0.828 1	0.736 13	0.802 6	0.981 37	0.919 12	0.875 20	0.877 11	1.000 1	0.820 7
Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo: SoftGroup for 3D Instance Segmentaiton on Point Clouds. CVPR 2022 [Oral]
MAFT	0.860 11	1.000 1	0.990 11	0.810 29	0.829 9	0.949 4	0.809 5	0.688 40	0.836 21	0.904 3	0.751 11	0.796 3	0.741 12	1.000 1	0.864 32	0.848 37	0.837 17	1.000 1	0.828 3

IPCA-Inst	0.851 12	1.000 1	0.968 21	0.884 10	0.842 7	0.862 32	0.693 18	0.812 20	0.888 13	0.677 29	0.783 3	0.698 18	0.807 5	1.000 1	0.911 19	0.865 29	0.865 14	1.000 1	0.757 19

SPFormer	0.851 12	1.000 1	0.994 6	0.806 31	0.774 23	0.942 6	0.637 22	0.849 12	0.859 18	0.889 5	0.720 16	0.730 15	0.665 20	1.000 1	0.911 19	0.868 28	0.873 13	1.000 1	0.796 10
Sun Jiahao, Qing Chunmei, Tan Junpeng, Xu Xiangmin: Superpoint Transformer for 3D Scene Instance Segmentation. AAAI 2023 [Oral]
Mask3D_evaluation	0.843 14	1.000 1	0.955 26	0.847 18	0.795 17	0.932 11	0.750 13	0.780 25	0.891 11	0.818 12	0.737 13	0.633 27	0.703 15	1.000 1	0.902 24	0.870 24	0.820 20	0.941 54	0.805 9

SIM3D	0.842 15	1.000 1	0.998 3	0.608 58	0.717 42	0.908 15	0.818 4	0.699 37	0.798 29	0.908 1	0.760 6	0.733 14	0.793 7	1.000 1	0.912 13	0.831 42	0.883 4	1.000 1	0.792 11

ISBNet	0.835 16	1.000 1	0.950 27	0.731 47	0.819 11	0.918 12	0.790 8	0.740 30	0.851 20	0.831 11	0.661 25	0.742 12	0.650 23	1.000 1	0.937 7	0.814 50	0.836 18	1.000 1	0.765 17
Tuan Duc Ngo, Binh-Son Hua, Khoi Nguyen: ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution. CVPR 2023
SphereSeg	0.835 16	1.000 1	0.963 24	0.891 8	0.794 18	0.954 2	0.822 3	0.710 34	0.961 2	0.721 21	0.693 23	0.530 40	0.653 22	1.000 1	0.867 31	0.857 33	0.859 15	0.991 43	0.771 14

GraphCut	0.832 18	1.000 1	0.922 41	0.724 49	0.798 16	0.902 18	0.701 17	0.856 10	0.859 17	0.715 22	0.706 18	0.748 10	0.640 34	1.000 1	0.934 10	0.862 31	0.880 6	1.000 1	0.729 22

TopoSeg	0.832 18	1.000 1	0.981 14	0.933 2	0.819 12	0.826 41	0.524 39	0.841 13	0.811 26	0.681 28	0.759 9	0.687 19	0.727 13	0.981 37	0.911 19	0.883 14	0.853 16	1.000 1	0.756 20

PBNet	0.825 20	1.000 1	0.963 23	0.837 21	0.843 6	0.865 27	0.822 2	0.647 43	0.878 15	0.733 19	0.639 32	0.683 20	0.650 23	1.000 1	0.853 33	0.870 25	0.820 21	1.000 1	0.744 21
W.Zhao, Y.Yan, C.Yang, J.Ye,X.Yang,K.Huang: Divide and Conquer: 3D Instance Segmentation With Point-Wise Binarization. ICCV 2023
SSEC	0.820 21	1.000 1	0.983 13	0.924 3	0.826 10	0.817 44	0.415 48	0.899 4	0.793 31	0.673 30	0.731 14	0.636 25	0.653 21	1.000 1	0.939 6	0.804 52	0.878 8	1.000 1	0.780 13

DKNet	0.815 22	1.000 1	0.930 33	0.844 19	0.765 27	0.915 13	0.534 37	0.805 22	0.805 28	0.807 14	0.654 26	0.763 9	0.650 23	1.000 1	0.794 45	0.881 15	0.766 25	1.000 1	0.758 18
Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong: 3D Instances as 1D Kernels. ECCV 2022
RPGN	0.806 23	1.000 1	0.992 8	0.789 33	0.723 40	0.891 21	0.650 21	0.810 21	0.832 23	0.665 32	0.699 21	0.658 21	0.700 16	1.000 1	0.881 26	0.832 41	0.774 23	0.997 34	0.613 42
Shichao Dong, Guosheng Lin, Tzu-Yi Hung: Learning Regional Purity for Instance Segmentation on 3D Point Clouds. ECCV 2022
HAIS	0.803 24	1.000 1	0.994 6	0.820 25	0.759 28	0.855 33	0.554 34	0.882 7	0.827 25	0.615 38	0.676 24	0.638 24	0.646 32	1.000 1	0.912 13	0.797 55	0.767 24	0.994 41	0.726 23
Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang: Hierarchical Aggregation for 3D Instance Segmentation. ICCV 2021
Box2Mask	0.803 24	1.000 1	0.962 25	0.874 12	0.707 45	0.887 24	0.686 20	0.598 48	0.961 1	0.715 23	0.694 22	0.469 45	0.700 16	1.000 1	0.912 13	0.902 7	0.753 30	0.997 34	0.637 36
Julian Chibane, Francis Engelmann, Tuan Anh Tran, Gerard Pons-Moll: Box2Mask: Weakly Supervised 3D Semantic Instance Segmentation Using Bounding Boxes. ECCV 2022
Mask-Group	0.792 26	1.000 1	0.968 22	0.812 26	0.766 26	0.864 28	0.460 42	0.815 19	0.888 12	0.598 42	0.651 29	0.639 23	0.600 40	0.918 43	0.941 4	0.896 10	0.721 37	1.000 1	0.723 24
Min Zhong, Xinghao Chen, Xiaokang Chen, Gang Zeng, Yunhe Wang: MaskGroup: Hierarchical Point Grouping and Masking for 3D Instance Segmentation. ICME 2022
CSC-Pretrained	0.791 27	1.000 1	0.996 4	0.829 24	0.767 25	0.889 23	0.600 25	0.819 18	0.770 36	0.594 43	0.620 36	0.541 37	0.700 16	1.000 1	0.941 4	0.889 12	0.763 26	1.000 1	0.526 52

SSTNet	0.789 28	1.000 1	0.840 55	0.888 9	0.717 41	0.835 37	0.717 15	0.684 41	0.627 51	0.724 20	0.652 28	0.727 16	0.600 40	1.000 1	0.912 13	0.822 45	0.757 29	1.000 1	0.691 30
Zhihao Liang, Zhihao Li, Songcen Xu, Mingkui Tan, Kui Jia: Instance Segmentation in 3D Scenes using Semantic Superpoint Tree Networks. ICCV2021
GICN	0.788 29	1.000 1	0.978 16	0.867 15	0.781 22	0.833 38	0.527 38	0.824 16	0.806 27	0.549 51	0.596 39	0.551 33	0.700 16	1.000 1	0.853 33	0.935 2	0.733 34	1.000 1	0.651 33

DANCENET	0.786 30	1.000 1	0.936 30	0.783 36	0.737 37	0.852 35	0.742 14	0.647 43	0.765 38	0.811 13	0.624 35	0.579 30	0.632 37	1.000 1	0.909 23	0.898 9	0.696 42	0.944 50	0.601 45

DENet	0.786 30	1.000 1	0.929 34	0.736 46	0.750 34	0.720 57	0.755 12	0.934 1	0.794 30	0.590 44	0.561 45	0.537 38	0.650 23	1.000 1	0.882 25	0.804 53	0.789 22	1.000 1	0.719 25

DualGroup	0.782 32	1.000 1	0.927 35	0.811 27	0.772 24	0.853 34	0.631 24	0.805 22	0.773 33	0.613 39	0.611 37	0.610 28	0.650 23	0.835 54	0.881 26	0.879 17	0.750 32	1.000 1	0.675 31

PointGroup	0.778 33	1.000 1	0.900 45	0.798 32	0.715 43	0.863 29	0.493 40	0.706 35	0.895 10	0.569 49	0.701 19	0.576 31	0.639 35	1.000 1	0.880 28	0.851 35	0.719 38	0.997 34	0.709 27
Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia: PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation. CVPR 2020 [oral]
PE	0.776 34	1.000 1	0.900 46	0.860 16	0.728 39	0.869 25	0.400 49	0.857 9	0.774 32	0.568 50	0.701 20	0.602 29	0.646 32	0.933 42	0.843 36	0.890 11	0.691 46	0.997 34	0.709 26
Biao Zhang, Peter Wonka: Point Cloud Instance Segmentation using Probabilistic Embeddings. CVPR 2021
AOIA	0.767 35	1.000 1	0.937 29	0.810 28	0.740 36	0.906 16	0.550 35	0.800 24	0.706 43	0.577 48	0.624 34	0.544 36	0.596 45	0.857 46	0.879 30	0.880 16	0.750 31	0.992 42	0.658 32

DD-UNet+Group	0.764 36	1.000 1	0.897 48	0.837 20	0.753 31	0.830 40	0.459 44	0.824 16	0.699 45	0.629 36	0.653 27	0.438 48	0.650 23	1.000 1	0.880 28	0.858 32	0.690 47	1.000 1	0.650 34
H. Liu, R. Liu, K. Yang, J. Zhang, K. Peng, R. Stiefelhagen: HIDA: Towards Holistic Indoor Understanding for the Visually Impaired via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor. ICCVW 2021
INS-Conv-instance	0.762 37	1.000 1	0.923 38	0.765 41	0.785 20	0.905 17	0.600 25	0.655 42	0.646 50	0.683 27	0.647 30	0.530 39	0.650 23	1.000 1	0.824 38	0.830 43	0.693 45	0.944 50	0.644 35

Dyco3D	0.761 38	1.000 1	0.935 31	0.893 7	0.752 33	0.863 30	0.600 25	0.588 49	0.742 40	0.641 34	0.633 33	0.546 35	0.550 47	0.857 46	0.789 47	0.853 34	0.762 27	0.987 44	0.699 28
Tong He; Chunhua Shen; Anton van den Hengel: DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution. CVPR2021
OccuSeg+instance	0.742 39	1.000 1	0.923 38	0.785 34	0.745 35	0.867 26	0.557 31	0.578 52	0.729 41	0.670 31	0.644 31	0.488 43	0.577 46	1.000 1	0.794 45	0.830 43	0.620 55	1.000 1	0.550 48
Lei Han, Tian Zheng, Lan Xu, Lu Fang: OccuSeg: Occupancy-aware 3D Instance Segmentation. CVPR2020
RWSeg	0.739 40	1.000 1	0.899 47	0.759 43	0.753 32	0.823 42	0.282 54	0.691 39	0.658 48	0.582 47	0.594 40	0.547 34	0.628 38	1.000 1	0.795 44	0.868 27	0.728 36	1.000 1	0.692 29

3D-MPA	0.737 41	1.000 1	0.933 32	0.785 34	0.794 19	0.831 39	0.279 56	0.588 49	0.695 46	0.616 37	0.559 46	0.556 32	0.650 23	1.000 1	0.809 42	0.875 21	0.696 43	1.000 1	0.608 44
Francis Engelmann, Martin Bokeloh, Alireza Fathi, Bastian Leibe, Matthias Nießner: 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation. CVPR 2020
MTML	0.731 42	1.000 1	0.992 8	0.779 40	0.609 54	0.746 52	0.308 53	0.867 8	0.601 54	0.607 40	0.539 49	0.519 41	0.550 47	1.000 1	0.824 38	0.869 26	0.729 35	1.000 1	0.616 40
Jean Lahoud, Bernard Ghanem, Marc Pollefeys, Martin R. Oswald: 3D Instance Segmentation via Multi-task Metric Learning. ICCV 2019 [oral]
OSIS	0.725 43	1.000 1	0.885 51	0.653 55	0.657 51	0.801 45	0.576 29	0.695 38	0.828 24	0.698 25	0.534 50	0.457 47	0.500 54	0.857 46	0.831 37	0.841 39	0.627 53	1.000 1	0.619 39

SSEN	0.724 44	1.000 1	0.926 36	0.781 39	0.661 49	0.845 36	0.596 28	0.529 55	0.764 39	0.653 33	0.489 56	0.461 46	0.500 54	0.859 45	0.765 48	0.872 23	0.761 28	1.000 1	0.577 46
Dongsu Zhang, Junha Chun, Sang Kyun Cha, Young Min Kim: Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with Deep Metric Learning. Arxiv
NeuralBF	0.718 45	1.000 1	0.945 28	0.901 6	0.754 30	0.817 43	0.460 42	0.700 36	0.772 34	0.688 26	0.568 44	0.000 67	0.500 54	0.981 37	0.606 58	0.872 22	0.740 33	1.000 1	0.614 41
Weiwei Sun, Daniel Rebain, Renjie Liao, Vladimir Tankovich, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi: NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation on Point Clouds. WACV 2023
Sparse R-CNN	0.714 46	1.000 1	0.926 37	0.694 50	0.699 47	0.890 22	0.636 23	0.516 56	0.693 47	0.743 18	0.588 41	0.369 52	0.601 39	0.594 60	0.800 43	0.886 13	0.676 48	0.986 45	0.546 49

SALoss-ResNet	0.695 47	1.000 1	0.855 53	0.579 61	0.589 56	0.735 55	0.484 41	0.588 49	0.856 19	0.634 35	0.571 43	0.298 53	0.500 54	1.000 1	0.824 38	0.818 46	0.702 41	0.935 57	0.545 50
Zhidong Liang, Ming Yang, Hao Li, Chunxiang Wang: 3D Instance Embedding Learning With a Structure-Aware Loss Function for Point Cloud Segmentation. IEEE Robotics and Automation Letters (IROS2020)
PanopticFusion-inst	0.693 48	1.000 1	0.852 54	0.655 54	0.616 53	0.788 47	0.334 51	0.763 26	0.771 35	0.457 61	0.555 47	0.652 22	0.518 51	0.857 46	0.765 48	0.732 61	0.631 51	0.944 50	0.577 47
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
Occipital-SCS	0.688 49	1.000 1	0.913 42	0.730 48	0.737 38	0.743 54	0.442 45	0.855 11	0.655 49	0.546 52	0.546 48	0.263 55	0.508 53	0.889 44	0.568 59	0.771 58	0.705 40	0.889 60	0.625 38

3D-BoNet	0.687 50	1.000 1	0.887 50	0.836 22	0.587 57	0.643 64	0.550 35	0.620 45	0.724 42	0.522 56	0.501 54	0.243 56	0.512 52	1.000 1	0.751 50	0.807 51	0.661 50	0.909 59	0.612 43
Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen Wang, Andrew Markham, Niki Trigoni: Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds. NeurIPS 2019 Spotlight
ClickSeg_Instance	0.685 51	1.000 1	0.818 57	0.600 59	0.715 44	0.795 46	0.557 31	0.533 54	0.591 56	0.601 41	0.519 52	0.429 50	0.638 36	0.938 41	0.706 53	0.817 48	0.624 54	0.944 50	0.502 54

PCJC	0.684 52	1.000 1	0.895 49	0.757 44	0.659 50	0.862 31	0.189 63	0.739 31	0.606 53	0.712 24	0.581 42	0.515 42	0.650 23	0.857 46	0.357 64	0.785 56	0.631 52	0.889 60	0.635 37

SPG_WSIS	0.678 53	1.000 1	0.880 52	0.836 22	0.701 46	0.727 56	0.273 58	0.607 47	0.706 44	0.541 54	0.515 53	0.174 59	0.600 40	0.857 46	0.716 52	0.846 38	0.711 39	1.000 1	0.506 53

One_Thing_One_Click	0.675 54	1.000 1	0.823 56	0.782 37	0.621 52	0.766 49	0.211 60	0.736 32	0.560 58	0.586 45	0.522 51	0.636 26	0.453 58	0.641 58	0.853 33	0.850 36	0.694 44	0.997 34	0.411 59
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
SegGroup_ins	0.637 55	1.000 1	0.923 40	0.593 60	0.561 58	0.746 53	0.143 65	0.504 57	0.766 37	0.485 59	0.442 57	0.372 51	0.530 50	0.714 55	0.815 41	0.775 57	0.673 49	1.000 1	0.431 58
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
MASC	0.615 56	0.711 63	0.802 58	0.540 62	0.757 29	0.777 48	0.029 66	0.577 53	0.588 57	0.521 57	0.600 38	0.436 49	0.534 49	0.697 56	0.616 57	0.838 40	0.526 57	0.980 47	0.534 51
Chen Liu, Yasutaka Furukawa: MASC: Multi-scale Affinity with Sparse Convolution for 3D Instance Segmentation.
UNet-backbone	0.605 57	1.000 1	0.909 43	0.764 42	0.603 55	0.704 58	0.415 47	0.301 62	0.548 59	0.461 60	0.394 58	0.267 54	0.386 60	0.857 46	0.649 56	0.817 47	0.504 59	0.959 48	0.356 62

3D-SIS	0.558 58	1.000 1	0.773 59	0.614 57	0.503 61	0.691 60	0.200 61	0.412 58	0.498 62	0.546 53	0.311 63	0.103 63	0.600 40	0.857 46	0.382 61	0.799 54	0.445 65	0.938 56	0.371 60
Ji Hou, Angela Dai, Matthias Niessner: 3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. CVPR 2019
R-PointNet	0.544 59	0.500 66	0.655 65	0.661 53	0.663 48	0.765 50	0.432 46	0.214 65	0.612 52	0.584 46	0.499 55	0.204 58	0.286 64	0.429 63	0.655 55	0.650 66	0.539 56	0.950 49	0.499 55

Hier3D	0.540 60	1.000 1	0.727 60	0.626 56	0.467 64	0.693 59	0.200 61	0.412 58	0.480 63	0.528 55	0.318 62	0.077 66	0.600 40	0.688 57	0.382 61	0.768 59	0.472 61	0.941 54	0.350 63
Tan: HCFS3D: Hierarchical Coupled Feature Selection Network for 3D Semantic and Instance Segmentation.
Region-18class	0.497 61	0.250 68	0.902 44	0.689 51	0.540 59	0.747 51	0.276 57	0.610 46	0.268 67	0.489 58	0.348 59	0.000 67	0.243 67	0.220 66	0.663 54	0.814 49	0.459 63	0.928 58	0.496 56

Sem_Recon_ins	0.484 62	0.764 62	0.608 67	0.470 64	0.521 60	0.637 65	0.311 52	0.218 64	0.348 66	0.365 65	0.223 64	0.222 57	0.258 65	0.629 59	0.734 51	0.596 67	0.509 58	0.858 63	0.444 57

tmp	0.474 63	1.000 1	0.727 60	0.433 66	0.481 63	0.673 62	0.022 68	0.380 60	0.517 61	0.436 63	0.338 61	0.128 61	0.343 62	0.429 63	0.291 66	0.728 62	0.473 60	0.833 64	0.300 65

SemRegionNet-20cls	0.470 64	1.000 1	0.727 60	0.447 65	0.481 62	0.678 61	0.024 67	0.380 60	0.518 60	0.440 62	0.339 60	0.128 61	0.350 61	0.429 63	0.212 67	0.711 63	0.465 62	0.833 64	0.290 66

ASIS	0.422 65	0.333 67	0.707 63	0.676 52	0.401 65	0.650 63	0.350 50	0.177 66	0.594 55	0.376 64	0.202 65	0.077 65	0.404 59	0.571 61	0.197 68	0.674 65	0.447 64	0.500 67	0.260 67

3D-BEVIS	0.401 66	0.667 64	0.687 64	0.419 67	0.137 68	0.587 66	0.188 64	0.235 63	0.359 65	0.211 67	0.093 68	0.080 64	0.311 63	0.571 61	0.382 61	0.754 60	0.300 67	0.874 62	0.357 61
Cathrin Elich, Francis Engelmann, Jonas Schult, Theodora Kontogianni, Bastian Leibe: 3D-BEVIS: Birds-Eye-View Instance Segmentation.
Sgpn_scannet	0.390 67	0.556 65	0.636 66	0.493 63	0.353 66	0.539 67	0.271 59	0.160 67	0.450 64	0.359 66	0.178 66	0.146 60	0.250 66	0.143 67	0.347 65	0.698 64	0.436 66	0.667 66	0.331 64

MaskRCNN 2d->3d Proj	0.261 68	0.903 61	0.081 68	0.008 68	0.233 67	0.175 68	0.280 55	0.106 68	0.150 68	0.203 68	0.175 67	0.480 44	0.218 68	0.143 67	0.542 60	0.404 68	0.153 68	0.393 68	0.049 68

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

Virtual MVFusion (R)	0.745 1	0.861 1	0.839 1	0.881 1	0.672 2	0.512 1	0.422 17	0.898 1	0.723 1	0.714 1	0.954 2	0.454 1	0.509 1	0.773 1	0.895 1	0.756 1	0.820 1	0.653 1	0.935 1	0.891 1	0.728 1
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
BPNet_2D	0.670 2	0.822 3	0.795 3	0.836 2	0.659 3	0.481 2	0.451 13	0.769 4	0.656 3	0.567 4	0.931 3	0.395 6	0.390 5	0.700 4	0.534 4	0.689 10	0.770 2	0.574 3	0.865 9	0.831 3	0.675 5
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia and Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MVF-GNN（2D）	0.636 3	0.606 14	0.794 4	0.434 16	0.688 1	0.337 8	0.464 12	0.798 3	0.632 5	0.589 3	0.908 8	0.420 2	0.329 12	0.743 2	0.594 2	0.738 2	0.676 5	0.527 4	0.906 2	0.818 6	0.715 3

CU-Hybrid-2D Net	0.636 3	0.825 2	0.820 2	0.179 23	0.648 4	0.463 3	0.549 2	0.742 7	0.676 2	0.628 2	0.961 1	0.420 2	0.379 6	0.684 8	0.381 18	0.732 3	0.723 3	0.599 2	0.827 16	0.851 2	0.634 7

CMX	0.613 5	0.681 8	0.725 12	0.502 12	0.634 6	0.297 18	0.478 10	0.830 2	0.651 4	0.537 7	0.924 4	0.375 7	0.315 14	0.686 7	0.451 14	0.714 5	0.543 21	0.504 6	0.894 7	0.823 5	0.688 4

DMMF_3d	0.605 6	0.651 9	0.744 10	0.782 3	0.637 5	0.387 4	0.536 3	0.732 8	0.590 7	0.540 6	0.856 21	0.359 11	0.306 15	0.596 14	0.539 3	0.627 20	0.706 4	0.497 8	0.785 21	0.757 19	0.476 22

EMSANet	0.600 7	0.716 4	0.746 9	0.395 18	0.614 9	0.382 5	0.523 4	0.713 11	0.571 11	0.503 10	0.922 6	0.404 5	0.397 4	0.655 9	0.400 16	0.626 21	0.663 6	0.469 13	0.900 4	0.827 4	0.577 14
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
MCA-Net	0.595 8	0.533 20	0.756 8	0.746 4	0.590 10	0.334 10	0.506 7	0.670 15	0.587 8	0.500 12	0.905 10	0.366 10	0.352 9	0.601 13	0.506 8	0.669 16	0.648 9	0.501 7	0.839 15	0.769 15	0.516 21

RFBNet	0.592 9	0.616 11	0.758 7	0.659 5	0.581 11	0.330 11	0.469 11	0.655 18	0.543 14	0.524 8	0.924 4	0.355 13	0.336 11	0.572 17	0.479 10	0.671 14	0.648 9	0.480 10	0.814 19	0.814 7	0.614 10

FAN_NV_RVC	0.586 10	0.510 21	0.764 6	0.079 26	0.620 8	0.330 11	0.494 8	0.753 5	0.573 9	0.556 5	0.884 16	0.405 4	0.303 16	0.718 3	0.452 13	0.672 13	0.658 7	0.509 5	0.898 5	0.813 8	0.727 2

DCRedNet	0.583 11	0.682 7	0.723 13	0.542 11	0.510 20	0.310 15	0.451 13	0.668 16	0.549 13	0.520 9	0.920 7	0.375 7	0.446 2	0.528 20	0.417 15	0.670 15	0.577 18	0.478 11	0.862 10	0.806 9	0.628 9

MIX6D_RVC	0.582 12	0.695 5	0.687 17	0.225 21	0.632 7	0.328 13	0.550 1	0.748 6	0.623 6	0.494 15	0.890 14	0.350 15	0.254 23	0.688 6	0.454 12	0.716 4	0.597 17	0.489 9	0.881 8	0.768 16	0.575 15

SSMA	0.577 13	0.695 5	0.716 15	0.439 14	0.563 14	0.314 14	0.444 15	0.719 9	0.551 12	0.503 10	0.887 15	0.346 16	0.348 10	0.603 12	0.353 20	0.709 6	0.600 15	0.457 14	0.901 3	0.786 11	0.599 13
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
DMMF	0.567 14	0.623 10	0.767 5	0.238 20	0.571 13	0.347 6	0.413 19	0.719 9	0.472 20	0.418 22	0.895 13	0.357 12	0.260 22	0.696 5	0.523 7	0.666 17	0.642 11	0.437 18	0.895 6	0.793 10	0.603 12

UNIV_CNP_RVC_UE	0.566 15	0.569 19	0.686 19	0.435 15	0.524 17	0.294 19	0.421 18	0.712 12	0.543 14	0.463 17	0.872 17	0.320 17	0.363 8	0.611 11	0.477 11	0.686 11	0.627 12	0.443 17	0.862 10	0.775 14	0.639 6

EMSAFormer	0.564 16	0.581 16	0.736 11	0.564 10	0.546 16	0.219 23	0.517 5	0.675 14	0.486 19	0.427 21	0.904 11	0.352 14	0.320 13	0.589 15	0.528 5	0.708 7	0.464 24	0.413 22	0.847 14	0.786 11	0.611 11

SN_RN152pyrx8_RVC	0.546 17	0.572 17	0.663 21	0.638 7	0.518 18	0.298 17	0.366 24	0.633 21	0.510 17	0.446 19	0.864 19	0.296 20	0.267 19	0.542 19	0.346 21	0.704 8	0.575 19	0.431 19	0.853 13	0.766 17	0.630 8

UDSSEG_RVC	0.545 18	0.610 13	0.661 22	0.588 8	0.556 15	0.268 21	0.482 9	0.642 20	0.572 10	0.475 16	0.836 23	0.312 18	0.367 7	0.630 10	0.189 23	0.639 19	0.495 23	0.452 15	0.826 17	0.756 20	0.541 17

segfomer with 6d	0.542 19	0.594 15	0.687 17	0.146 24	0.579 12	0.308 16	0.515 6	0.703 13	0.472 20	0.498 13	0.868 18	0.369 9	0.282 17	0.589 15	0.390 17	0.701 9	0.556 20	0.416 21	0.860 12	0.759 18	0.539 19

FuseNet	0.535 20	0.570 18	0.681 20	0.182 22	0.512 19	0.290 20	0.431 16	0.659 17	0.504 18	0.495 14	0.903 12	0.308 19	0.428 3	0.523 21	0.365 19	0.676 12	0.621 14	0.470 12	0.762 22	0.779 13	0.541 17
Caner Hazirbas, Lingni Ma, Csaba Domokos, Daniel Cremers: FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. ACCV 2016
AdapNet++	0.503 21	0.613 12	0.722 14	0.418 17	0.358 26	0.337 8	0.370 23	0.479 24	0.443 22	0.368 24	0.907 9	0.207 23	0.213 25	0.464 24	0.525 6	0.618 22	0.657 8	0.450 16	0.788 20	0.721 23	0.408 25
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
3DMV (2d proj)	0.498 22	0.481 24	0.612 23	0.579 9	0.456 22	0.343 7	0.384 21	0.623 22	0.525 16	0.381 23	0.845 22	0.254 22	0.264 21	0.557 18	0.182 24	0.581 24	0.598 16	0.429 20	0.760 23	0.661 25	0.446 24
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
MSeg1080_RVC	0.485 23	0.505 22	0.709 16	0.092 25	0.427 23	0.241 22	0.411 20	0.654 19	0.385 26	0.457 18	0.861 20	0.053 26	0.279 18	0.503 22	0.481 9	0.645 18	0.626 13	0.365 24	0.748 24	0.725 22	0.529 20
John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun: MSeg: A Composite Dataset for Multi-domain Semantic Segmentation. CVPR 2020
ILC-PSPNet	0.475 24	0.490 23	0.581 24	0.289 19	0.507 21	0.067 26	0.379 22	0.610 23	0.417 24	0.435 20	0.822 25	0.278 21	0.267 19	0.503 22	0.228 22	0.616 23	0.533 22	0.375 23	0.820 18	0.729 21	0.560 16

Enet (reimpl)	0.376 25	0.264 26	0.452 26	0.452 13	0.365 24	0.181 24	0.143 26	0.456 25	0.409 25	0.346 25	0.769 26	0.164 24	0.218 24	0.359 25	0.123 26	0.403 26	0.381 26	0.313 26	0.571 25	0.685 24	0.472 23
Re-implementation of Adam Paszke, Abhishek Chaurasia, Sangpil Kim, Eugenio Culurciello: ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation.
ScanNet (2d proj)	0.330 26	0.293 25	0.521 25	0.657 6	0.361 25	0.161 25	0.250 25	0.004 26	0.440 23	0.183 26	0.836 23	0.125 25	0.060 26	0.319 26	0.132 25	0.417 25	0.412 25	0.344 25	0.541 26	0.427 26	0.109 26
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

EMSANet (Instance)	0.241 1	0.401 1	0.439 1	0.085 1	0.242 1	0.220 1	0.081 1	0.289 2	0.117 2	0.121 1	0.182 1	0.126 1	0.346 1	0.181 2	0.181 2	0.358 1	0.156 1	0.675 2	0.131 1
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
UniDet_RVC	0.205 2	0.381 2	0.323 3	0.037 3	0.226 3	0.177 3	0.063 2	0.277 3	0.120 1	0.067 3	0.131 3	0.074 3	0.317 2	0.080 3	0.235 1	0.289 3	0.141 3	0.678 1	0.080 3

FKNet	0.204 3	0.334 3	0.358 2	0.038 2	0.234 2	0.184 2	0.025 3	0.318 1	0.042 4	0.088 2	0.141 2	0.053 4	0.300 3	0.207 1	0.171 3	0.292 2	0.149 2	0.636 3	0.109 2

MaskRCNN_ScanNet	0.119 4	0.129 4	0.212 4	0.002 4	0.112 4	0.148 4	0.014 4	0.205 4	0.044 3	0.066 4	0.078 4	0.095 2	0.142 4	0.030 4	0.128 4	0.139 4	0.080 4	0.459 4	0.057 4
Re-implementation of Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick: Mask R-CNN. ICCV'17

Presenting the ScanNet200 Benchmark

ScanNet200 Benchmark

ScanNet200 3D Semantic Label Benchmark

ScanNet200 3D Semantic Instance Benchmark

ScanNet Benchmark

3D Semantic Label Benchmark

3D Semantic Instance Benchmark

2D Semantic Label Benchmark

2D Semantic Instance Benchmark

Scene Type Classification Benchmark

Method	avg recall	apartment	bathroom	bedroom / hotel	bookstore / library	conference room	copy/mail room	hallway	kitchen	laundry room	living room / lounge	misc	office	storage / basement / garage

LAST-PCL-type	0.780 1	0.250 3	1.000 1	1.000 1	1.000 1	1.000 1	1.000 1	0.500 2	1.000 1	0.500 2	0.889 1	0.000 2	1.000 1	1.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang: Language-Assisted 3D Scene Understanding. arxiv23.12
multi-task	0.700 2	0.500 1	1.000 1	0.882 3	0.500 3	1.000 1	1.000 1	0.500 2	1.000 1	1.000 1	0.778 2	0.000 2	0.938 2	0.000 3
Shengyu Huang, Mikhail Usvyatsov, Konrad Schindler: Indoor Scene Recognition in 3D. IROS 2020
3DASPP-SCE	0.691 3	0.500 1	0.938 3	0.824 4	1.000 1	1.000 1	0.500 3	1.000 1	0.857 3	0.500 2	0.556 4	0.000 2	0.812 3	0.500 2

SE-ResNeXt-SSMA	0.498 4	0.000 5	0.812 4	0.941 2	0.500 3	0.500 4	0.500 3	0.500 2	0.429 5	0.500 2	0.667 3	0.500 1	0.625 4	0.000 3
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. arXiv
resnet50_scannet	0.353 5	0.250 3	0.812 4	0.529 5	0.500 3	0.500 4	0.000 5	0.500 2	0.571 4	0.000 5	0.556 4	0.000 2	0.375 5	0.000 3