Benchmark Results - ScanNet Benchmark

This table lists the benchmark results for the ScanNet200 3D semantic label scenario.

Method	avg iou	head iou	common iou	tail iou	wall	chair	floor	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

PonderV2 ScanNet200	0.346 2	0.552 4	0.270 4	0.175 3	0.810 4	0.682 4	0.950 2	0.560 4	0.641 6	0.761 1	0.398 7	0.357 6	0.570 5	0.113 2	0.804 3	0.603 3	0.750 3	0.283 2	0.681 4	0.952 2	0.548 2	0.874 3	0.852 7	0.290 6	0.700 2	0.356 7	0.792 3	0.445 6	0.545 7	0.436 6	0.351 7	0.787 5	0.611 5	0.050 6	0.290 8	0.519 8	0.000 1	0.825 4	0.888 2	0.842 3	0.259 2	0.100 2	0.558 3	0.070 8	0.497 5	0.247 8	0.457 7	0.889 2	0.248 5	0.106 6	0.817 7	0.691 3	0.094 4	0.729 1	0.636 3	0.620 8	0.503 7	0.660 9	0.243 4	0.000 3	0.212 5	0.590 3	0.860 6	0.400 3	0.881 3	0.000 3	0.202 1	0.622 6	0.408 5	0.499 6	0.261 6	0.000 1	0.385 5	0.636 5	0.000 4	0.000 6	0.000 1	0.000 3	0.433 11	0.843 4	0.660 3	0.574 8	0.481 2	0.336 3	0.677 3	0.486 2	0.000 3	0.030 1	0.000 1	0.034 4	0.000 3	0.080 5	0.869 7	0.000 1	0.000 7	0.000 7	0.540 4	0.727 2	0.232 11	0.115 5	0.186 5	0.193 5	0.000 10	0.403 6	0.326 3	0.103 8	0.000 3	0.290 3	0.392 6	0.000 1	0.346 4	0.062 7	0.424 2	0.375 4	0.431 3	0.667 2	0.115 8	0.082 7	0.239 4	0.000 1	0.504 8	0.606 4	0.584 6	0.000 1	0.002 4	0.186 4	0.104 6	0.000 5	0.394 2	0.384 6	0.083 4	0.000 4	0.007 5	0.000 1	0.000 1	0.880 4	0.000 1	0.377 6	0.000 1	0.263 2	0.565 2	0.000 1	0.608 6	0.000 1	0.000 1	0.304 4	0.009 5	0.924 1	0.000 5	0.000 5	0.000 1	0.000 5	0.000 1	0.128 2	0.584 1	0.475 4	0.412 5	0.076 8	0.269 3	0.621 3	0.509 3	0.010 3	0.000 1	0.491 6	0.063 1	0.000 2	0.472 3	0.880 1	0.000 2	0.000 1	0.000 1	0.179 3	0.125 1	0.000 2	0.441 5	0.000 1
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
PTv3 ScanNet200	0.393 1	0.592 1	0.330 1	0.216 1	0.851 1	0.687 3	0.971 1	0.586 1	0.755 1	0.752 4	0.505 1	0.404 4	0.575 2	0.000 9	0.848 1	0.616 1	0.761 1	0.349 1	0.738 1	0.978 1	0.546 3	0.860 6	0.926 1	0.346 1	0.654 3	0.384 4	0.828 1	0.523 3	0.699 1	0.583 3	0.387 5	0.822 1	0.688 1	0.118 4	0.474 1	0.603 4	0.000 1	0.832 2	0.903 1	0.753 7	0.140 6	0.000 7	0.650 1	0.109 2	0.520 1	0.457 1	0.497 6	0.871 3	0.281 1	0.192 2	0.887 2	0.748 1	0.168 1	0.727 2	0.733 1	0.740 1	0.644 1	0.714 3	0.190 7	0.000 3	0.256 2	0.449 5	0.914 1	0.514 1	0.759 9	0.337 1	0.172 3	0.692 3	0.617 1	0.636 1	0.325 3	0.000 1	0.641 1	0.782 1	0.000 4	0.065 2	0.000 1	0.000 3	0.842 1	0.903 1	0.661 1	0.662 2	0.612 1	0.405 2	0.731 1	0.566 1	0.000 3	0.000 4	0.000 1	0.017 9	0.301 1	0.088 4	0.941 1	0.000 1	0.077 2	0.000 7	0.717 2	0.790 1	0.310 9	0.026 11	0.264 2	0.349 1	0.220 2	0.397 7	0.366 1	0.115 7	0.000 3	0.337 1	0.463 4	0.000 1	0.531 1	0.218 1	0.593 1	0.455 1	0.469 1	0.708 1	0.210 1	0.592 2	0.108 10	0.000 1	0.728 1	0.682 2	0.671 4	0.000 1	0.000 6	0.407 1	0.136 1	0.022 2	0.575 1	0.436 4	0.259 1	0.428 1	0.048 2	0.000 1	0.000 1	0.879 5	0.000 1	0.480 1	0.000 1	0.133 4	0.597 1	0.000 1	0.690 1	0.000 1	0.000 1	0.009 10	0.000 9	0.921 2	0.000 5	0.151 1	0.000 1	0.000 5	0.000 1	0.109 6	0.494 8	0.622 2	0.394 6	0.073 9	0.141 7	0.798 1	0.528 2	0.026 1	0.000 1	0.551 2	0.000 2	0.000 2	0.134 5	0.717 4	0.000 2	0.000 1	0.000 1	0.188 2	0.000 4	0.000 2	0.791 1	0.000 1
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
L3DETR-ScanNet_200	0.336 4	0.533 7	0.279 2	0.155 4	0.801 6	0.689 2	0.946 3	0.539 6	0.660 4	0.759 2	0.380 8	0.333 8	0.583 1	0.000 9	0.788 5	0.529 6	0.740 4	0.261 6	0.679 6	0.940 7	0.525 7	0.860 6	0.883 3	0.226 7	0.613 6	0.397 3	0.720 8	0.512 4	0.565 6	0.620 1	0.417 3	0.775 8	0.629 3	0.158 2	0.298 6	0.579 7	0.000 1	0.835 1	0.883 3	0.927 1	0.114 7	0.079 4	0.511 6	0.073 7	0.508 3	0.312 3	0.629 3	0.861 4	0.192 10	0.098 9	0.908 1	0.636 7	0.032 11	0.563 11	0.514 9	0.664 3	0.505 6	0.697 5	0.225 6	0.000 3	0.264 1	0.411 7	0.860 6	0.321 7	0.960 1	0.058 2	0.109 8	0.776 1	0.526 3	0.557 2	0.303 5	0.000 1	0.339 6	0.712 3	0.000 4	0.014 4	0.000 1	0.000 3	0.638 7	0.856 3	0.641 4	0.579 7	0.107 11	0.119 9	0.661 5	0.416 3	0.000 3	0.000 4	0.000 1	0.007 11	0.000 3	0.067 7	0.910 3	0.000 1	0.000 7	0.000 7	0.463 5	0.448 4	0.294 10	0.324 1	0.293 1	0.211 4	0.108 5	0.448 5	0.068 11	0.141 3	0.000 3	0.330 2	0.699 1	0.000 1	0.256 5	0.192 3	0.000 9	0.355 5	0.418 4	0.209 11	0.146 7	0.679 1	0.101 11	0.000 1	0.503 9	0.687 1	0.671 4	0.000 1	0.000 6	0.174 5	0.117 2	0.000 5	0.122 4	0.515 2	0.104 2	0.259 2	0.312 1	0.000 1	0.000 1	0.765 7	0.000 1	0.369 8	0.000 1	0.183 3	0.422 8	0.000 1	0.646 2	0.000 1	0.000 1	0.565 1	0.001 8	0.125 11	0.010 3	0.002 4	0.000 1	0.487 1	0.000 1	0.075 10	0.548 2	0.420 5	0.233 10	0.082 6	0.138 9	0.430 8	0.427 7	0.000 8	0.000 1	0.549 3	0.000 2	0.000 2	0.074 6	0.409 10	0.000 2	0.000 1	0.000 1	0.152 5	0.051 2	0.000 2	0.598 3	0.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, Jian Zhang: Language-Assisted 3D Scene Understanding. arXiv23.12
OA-CNN-L_ScanNet200	0.333 5	0.558 2	0.269 5	0.124 7	0.821 2	0.703 1	0.946 3	0.569 2	0.662 2	0.748 5	0.487 2	0.455 1	0.572 4	0.000 9	0.789 4	0.534 5	0.736 5	0.271 3	0.713 2	0.949 3	0.498 10	0.877 2	0.860 5	0.332 3	0.706 1	0.474 1	0.788 5	0.406 7	0.637 3	0.495 5	0.355 6	0.805 3	0.592 9	0.015 10	0.396 2	0.602 5	0.000 1	0.799 5	0.876 4	0.713 11	0.276 1	0.000 7	0.493 7	0.080 5	0.448 9	0.363 2	0.661 2	0.833 5	0.262 3	0.125 3	0.823 6	0.665 5	0.076 6	0.720 3	0.557 5	0.637 6	0.517 5	0.672 8	0.227 5	0.000 3	0.158 7	0.496 4	0.843 8	0.352 6	0.835 7	0.000 3	0.103 9	0.711 2	0.527 2	0.526 4	0.320 4	0.000 1	0.568 3	0.625 6	0.067 1	0.000 6	0.000 1	0.001 2	0.806 3	0.836 5	0.621 6	0.591 4	0.373 5	0.314 4	0.668 4	0.398 5	0.003 2	0.000 4	0.000 1	0.016 10	0.024 2	0.043 9	0.906 4	0.000 1	0.052 4	0.000 7	0.384 6	0.330 8	0.342 5	0.100 6	0.223 4	0.183 7	0.112 4	0.476 4	0.313 4	0.130 6	0.196 2	0.112 6	0.370 8	0.000 1	0.234 6	0.071 6	0.160 3	0.403 3	0.398 8	0.492 9	0.197 2	0.076 8	0.272 3	0.000 1	0.200 11	0.560 5	0.735 3	0.000 1	0.000 6	0.000 6	0.110 4	0.002 4	0.021 5	0.412 5	0.000 6	0.000 4	0.000 7	0.000 1	0.000 1	0.794 6	0.000 1	0.445 2	0.000 1	0.022 5	0.509 5	0.000 1	0.517 10	0.000 1	0.000 1	0.001 11	0.245 2	0.915 4	0.024 2	0.089 2	0.000 1	0.262 2	0.000 1	0.103 8	0.524 4	0.392 7	0.515 2	0.013 11	0.251 4	0.411 9	0.662 1	0.001 7	0.000 1	0.473 7	0.000 2	0.000 2	0.150 4	0.699 5	0.000 2	0.000 1	0.000 1	0.166 4	0.000 4	0.024 1	0.000 6	0.000 1

PPT-SpUNet-F.T.	0.332 6	0.556 3	0.270 3	0.123 8	0.816 3	0.682 4	0.946 3	0.549 5	0.657 5	0.756 3	0.459 4	0.376 5	0.550 6	0.001 8	0.807 2	0.616 1	0.727 6	0.267 4	0.691 3	0.942 6	0.530 6	0.872 4	0.874 4	0.330 4	0.542 8	0.374 5	0.792 3	0.400 8	0.673 2	0.572 4	0.433 1	0.793 4	0.623 4	0.008 11	0.351 4	0.594 6	0.000 1	0.783 7	0.876 4	0.833 4	0.213 3	0.000 7	0.537 4	0.091 3	0.519 2	0.304 4	0.620 5	0.942 1	0.264 2	0.124 4	0.855 3	0.695 2	0.086 5	0.646 5	0.506 10	0.658 4	0.535 3	0.715 2	0.314 1	0.000 3	0.241 3	0.608 2	0.897 2	0.359 5	0.858 5	0.000 3	0.076 11	0.611 7	0.392 6	0.509 5	0.378 2	0.000 1	0.579 2	0.565 10	0.000 4	0.000 6	0.000 1	0.000 3	0.755 4	0.806 7	0.661 1	0.572 9	0.350 6	0.181 6	0.660 6	0.300 8	0.000 3	0.000 4	0.000 1	0.023 6	0.000 3	0.042 10	0.930 2	0.000 1	0.000 7	0.077 4	0.584 3	0.392 6	0.339 6	0.185 4	0.171 7	0.308 2	0.006 9	0.563 3	0.256 5	0.150 1	0.000 3	0.002 10	0.345 9	0.000 1	0.045 8	0.197 2	0.063 5	0.323 8	0.453 2	0.600 5	0.163 6	0.037 9	0.349 2	0.000 1	0.672 2	0.679 3	0.753 1	0.000 1	0.000 6	0.000 6	0.117 2	0.000 5	0.000 6	0.291 8	0.000 6	0.000 4	0.039 3	0.000 1	0.000 1	0.899 2	0.000 1	0.374 7	0.000 1	0.000 7	0.545 4	0.000 1	0.634 3	0.000 1	0.000 1	0.074 7	0.223 3	0.914 5	0.000 5	0.021 3	0.000 1	0.000 5	0.000 1	0.112 4	0.498 7	0.649 1	0.383 7	0.095 1	0.135 10	0.449 7	0.432 6	0.008 5	0.000 1	0.518 4	0.000 2	0.000 2	0.000 7	0.796 2	0.000 2	0.000 1	0.000 1	0.138 8	0.000 4	0.000 2	0.000 6	0.000 1
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer ScanNet200	0.326 7	0.539 6	0.265 6	0.131 6	0.806 5	0.670 7	0.943 6	0.535 7	0.662 2	0.705 10	0.423 5	0.407 3	0.505 8	0.003 7	0.765 7	0.582 4	0.686 9	0.227 10	0.680 5	0.943 5	0.601 1	0.854 8	0.892 2	0.335 2	0.417 11	0.357 6	0.724 7	0.453 5	0.632 4	0.596 2	0.432 2	0.783 6	0.512 11	0.021 9	0.244 9	0.637 1	0.000 1	0.787 6	0.873 6	0.743 9	0.000 11	0.000 7	0.534 5	0.110 1	0.499 4	0.289 5	0.626 4	0.620 9	0.168 11	0.204 1	0.849 4	0.679 4	0.117 2	0.633 6	0.684 2	0.650 5	0.552 2	0.684 7	0.312 2	0.000 3	0.175 6	0.429 6	0.865 3	0.413 2	0.837 6	0.000 3	0.145 5	0.626 5	0.451 4	0.487 7	0.513 1	0.000 1	0.529 4	0.613 7	0.000 4	0.033 3	0.000 1	0.000 3	0.828 2	0.871 2	0.622 5	0.587 5	0.411 4	0.137 8	0.645 8	0.343 6	0.000 3	0.000 4	0.000 1	0.022 7	0.000 3	0.026 11	0.829 8	0.000 1	0.022 5	0.089 3	0.842 1	0.253 10	0.318 8	0.296 2	0.178 6	0.291 3	0.224 1	0.584 2	0.200 8	0.132 5	0.000 3	0.128 5	0.227 10	0.000 1	0.230 7	0.047 8	0.149 4	0.331 7	0.412 6	0.618 4	0.164 5	0.102 6	0.522 1	0.000 1	0.655 3	0.378 7	0.469 9	0.000 1	0.000 6	0.000 6	0.105 5	0.000 5	0.000 6	0.483 3	0.000 6	0.000 4	0.028 4	0.000 1	0.000 1	0.906 1	0.000 1	0.339 9	0.000 1	0.000 7	0.457 6	0.000 1	0.612 5	0.000 1	0.000 1	0.408 2	0.000 9	0.900 6	0.000 5	0.000 5	0.000 1	0.029 4	0.000 1	0.074 11	0.455 9	0.479 3	0.427 4	0.079 7	0.140 8	0.496 5	0.414 8	0.022 2	0.000 1	0.471 8	0.000 2	0.000 2	0.000 7	0.722 3	0.000 2	0.000 1	0.000 1	0.138 8	0.000 4	0.000 2	0.000 6	0.000 1
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
CeCo	0.340 3	0.551 5	0.247 7	0.181 2	0.784 7	0.661 8	0.939 7	0.564 3	0.624 7	0.721 6	0.484 3	0.429 2	0.575 2	0.027 5	0.774 6	0.503 8	0.753 2	0.242 7	0.656 7	0.945 4	0.534 4	0.865 5	0.860 5	0.177 11	0.616 5	0.400 2	0.818 2	0.579 1	0.615 5	0.367 8	0.408 4	0.726 9	0.633 2	0.162 1	0.360 3	0.619 2	0.000 1	0.828 3	0.873 6	0.924 2	0.109 8	0.083 3	0.564 2	0.057 11	0.475 7	0.266 6	0.781 1	0.767 6	0.257 4	0.100 7	0.825 5	0.663 6	0.048 10	0.620 8	0.551 6	0.595 9	0.532 4	0.692 6	0.246 3	0.000 3	0.213 4	0.615 1	0.861 5	0.376 4	0.900 2	0.000 3	0.102 10	0.660 4	0.321 9	0.547 3	0.226 7	0.000 1	0.311 7	0.742 2	0.011 3	0.006 5	0.000 1	0.000 3	0.546 10	0.824 6	0.345 8	0.665 1	0.450 3	0.435 1	0.683 2	0.411 4	0.338 1	0.000 4	0.000 1	0.030 5	0.000 3	0.068 6	0.892 5	0.000 1	0.063 3	0.000 7	0.257 7	0.304 9	0.387 3	0.079 8	0.228 3	0.190 6	0.000 10	0.586 1	0.347 2	0.133 4	0.000 3	0.037 7	0.377 7	0.000 1	0.384 3	0.006 10	0.003 7	0.421 2	0.410 7	0.643 3	0.171 4	0.121 4	0.142 8	0.000 1	0.510 7	0.447 6	0.474 8	0.000 1	0.000 6	0.286 2	0.083 7	0.000 5	0.000 6	0.603 1	0.096 3	0.063 3	0.000 7	0.000 1	0.000 1	0.898 3	0.000 1	0.429 3	0.000 1	0.400 1	0.550 3	0.000 1	0.633 4	0.000 1	0.000 1	0.377 3	0.000 9	0.916 3	0.000 5	0.000 5	0.000 1	0.000 5	0.000 1	0.102 9	0.499 6	0.296 8	0.463 3	0.089 4	0.304 1	0.740 2	0.401 10	0.010 3	0.000 1	0.560 1	0.000 2	0.000 2	0.709 1	0.652 6	0.000 2	0.000 1	0.000 1	0.143 6	0.000 4	0.000 2	0.609 2	0.000 1
Zhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia: Understanding Imbalanced Semantic Segmentation Through Neural Collapse. CVPR 2023
AWCS	0.305 8	0.508 8	0.225 8	0.142 5	0.782 8	0.634 11	0.937 8	0.489 9	0.578 8	0.721 6	0.364 9	0.355 7	0.515 7	0.023 6	0.764 8	0.523 7	0.707 8	0.264 5	0.633 8	0.922 8	0.507 9	0.886 1	0.804 9	0.179 9	0.436 10	0.300 8	0.656 10	0.529 2	0.501 9	0.394 7	0.296 10	0.820 2	0.603 6	0.131 3	0.179 11	0.619 2	0.000 1	0.707 10	0.865 8	0.773 5	0.171 4	0.010 6	0.484 8	0.063 9	0.463 8	0.254 7	0.332 10	0.649 8	0.220 7	0.100 7	0.729 9	0.613 9	0.071 8	0.582 9	0.628 4	0.702 2	0.424 9	0.749 1	0.137 9	0.000 3	0.142 8	0.360 8	0.863 4	0.305 8	0.877 4	0.000 3	0.173 2	0.606 8	0.337 8	0.478 8	0.154 9	0.000 1	0.253 8	0.664 4	0.000 4	0.000 6	0.000 1	0.000 3	0.626 8	0.782 8	0.302 10	0.602 3	0.185 9	0.282 5	0.651 7	0.317 7	0.000 3	0.000 4	0.000 1	0.022 7	0.000 3	0.154 1	0.876 6	0.000 1	0.014 6	0.063 6	0.029 11	0.553 3	0.467 2	0.084 7	0.124 8	0.157 10	0.049 8	0.373 8	0.252 6	0.097 9	0.000 3	0.219 4	0.542 2	0.000 1	0.392 2	0.172 5	0.000 9	0.339 6	0.417 5	0.533 8	0.093 9	0.115 5	0.195 6	0.000 1	0.516 6	0.288 10	0.741 2	0.000 1	0.001 5	0.233 3	0.056 8	0.000 5	0.159 3	0.334 7	0.077 5	0.000 4	0.000 7	0.000 1	0.000 1	0.749 8	0.000 1	0.411 4	0.000 1	0.008 6	0.452 7	0.000 1	0.595 7	0.000 1	0.000 1	0.220 6	0.006 6	0.894 8	0.006 4	0.000 5	0.000 1	0.000 5	0.000 1	0.112 4	0.504 5	0.404 6	0.551 1	0.093 3	0.129 11	0.484 6	0.381 11	0.000 8	0.000 1	0.396 9	0.000 2	0.000 2	0.620 2	0.402 11	0.000 2	0.000 1	0.000 1	0.142 7	0.000 4	0.000 2	0.512 4	0.000 1

LGround	0.272 9	0.485 9	0.184 9	0.106 9	0.778 9	0.676 6	0.932 9	0.479 11	0.572 9	0.718 8	0.399 6	0.265 9	0.453 10	0.085 3	0.745 9	0.446 9	0.726 7	0.232 9	0.622 9	0.901 9	0.512 8	0.826 9	0.786 10	0.178 10	0.549 7	0.277 9	0.659 9	0.381 9	0.518 8	0.295 11	0.323 8	0.777 7	0.599 7	0.028 7	0.321 5	0.363 10	0.000 1	0.708 9	0.858 9	0.746 8	0.063 9	0.022 5	0.457 9	0.077 6	0.476 6	0.243 9	0.402 8	0.397 11	0.233 6	0.077 11	0.720 11	0.610 10	0.103 3	0.629 7	0.437 11	0.626 7	0.446 8	0.702 4	0.190 7	0.005 1	0.058 10	0.322 9	0.702 10	0.244 9	0.768 8	0.000 3	0.134 7	0.552 9	0.279 10	0.395 9	0.147 10	0.000 1	0.207 9	0.612 8	0.000 4	0.000 6	0.000 1	0.000 3	0.658 6	0.566 9	0.323 9	0.525 11	0.229 8	0.179 7	0.467 11	0.154 10	0.000 3	0.002 2	0.000 1	0.051 1	0.000 3	0.127 2	0.703 9	0.000 1	0.000 7	0.216 1	0.112 10	0.358 7	0.547 1	0.187 3	0.092 10	0.156 11	0.055 7	0.296 9	0.252 6	0.143 2	0.000 3	0.014 8	0.398 5	0.000 1	0.028 10	0.173 4	0.000 9	0.265 10	0.348 9	0.415 10	0.179 3	0.019 10	0.218 5	0.000 1	0.597 5	0.274 11	0.565 7	0.000 1	0.012 3	0.000 6	0.039 10	0.022 2	0.000 6	0.117 9	0.000 6	0.000 4	0.000 7	0.000 1	0.000 1	0.324 10	0.000 1	0.384 5	0.000 1	0.000 7	0.251 11	0.000 1	0.566 8	0.000 1	0.000 1	0.066 8	0.404 1	0.886 9	0.199 1	0.000 5	0.000 1	0.059 3	0.000 1	0.136 1	0.540 3	0.127 11	0.295 8	0.085 5	0.143 6	0.514 4	0.413 9	0.000 8	0.000 1	0.498 5	0.000 2	0.000 2	0.000 7	0.623 7	0.000 2	0.000 1	0.000 1	0.132 10	0.000 4	0.000 2	0.000 6	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild. arXiv
CSC-Pretrain	0.249 11	0.455 11	0.171 10	0.079 11	0.766 11	0.659 9	0.930 11	0.494 8	0.542 11	0.700 11	0.314 11	0.215 11	0.430 11	0.121 1	0.697 11	0.441 10	0.683 10	0.235 8	0.609 11	0.895 10	0.476 11	0.816 10	0.770 11	0.186 8	0.634 4	0.216 11	0.734 6	0.340 10	0.471 10	0.307 10	0.293 11	0.591 11	0.542 10	0.076 5	0.205 10	0.464 9	0.000 1	0.484 11	0.832 11	0.766 6	0.052 10	0.000 7	0.413 10	0.059 10	0.418 10	0.222 10	0.318 11	0.609 10	0.206 9	0.112 5	0.743 8	0.625 8	0.076 6	0.579 10	0.548 7	0.590 10	0.371 10	0.552 11	0.081 10	0.003 2	0.142 8	0.201 11	0.638 11	0.233 10	0.686 11	0.000 3	0.142 6	0.444 11	0.375 7	0.247 11	0.198 8	0.000 1	0.128 11	0.454 11	0.019 2	0.097 1	0.000 1	0.000 3	0.553 9	0.557 10	0.373 7	0.545 10	0.164 10	0.014 11	0.547 10	0.174 9	0.000 3	0.002 2	0.000 1	0.037 2	0.000 3	0.063 8	0.664 11	0.000 1	0.000 7	0.130 2	0.170 8	0.152 11	0.335 7	0.079 8	0.110 9	0.175 8	0.098 6	0.175 11	0.166 9	0.045 11	0.207 1	0.014 8	0.465 3	0.000 1	0.001 11	0.001 11	0.046 6	0.299 9	0.327 10	0.537 7	0.033 10	0.012 11	0.186 7	0.000 1	0.205 10	0.377 8	0.463 10	0.000 1	0.058 2	0.000 6	0.055 9	0.041 1	0.000 6	0.105 10	0.000 6	0.000 4	0.000 7	0.000 1	0.000 1	0.398 9	0.000 1	0.308 11	0.000 1	0.000 7	0.319 9	0.000 1	0.543 9	0.000 1	0.000 1	0.062 9	0.004 7	0.862 10	0.000 5	0.000 5	0.000 1	0.000 5	0.000 1	0.123 3	0.316 10	0.225 9	0.250 9	0.094 2	0.180 5	0.332 10	0.441 5	0.000 8	0.000 1	0.310 11	0.000 2	0.000 2	0.000 7	0.592 8	0.000 2	0.000 1	0.000 1	0.203 1	0.000 4	0.000 2	0.000 6	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
Minkowski 34D	0.253 10	0.463 10	0.154 11	0.102 10	0.771 10	0.650 10	0.932 9	0.483 10	0.571 10	0.710 9	0.331 10	0.250 10	0.492 9	0.044 4	0.703 10	0.419 11	0.606 11	0.227 10	0.621 10	0.865 11	0.531 5	0.771 11	0.813 8	0.291 5	0.484 9	0.242 10	0.612 11	0.282 11	0.440 11	0.351 9	0.299 9	0.622 10	0.593 8	0.027 8	0.293 7	0.310 11	0.000 1	0.757 8	0.858 9	0.737 10	0.150 5	0.164 1	0.368 11	0.084 4	0.381 11	0.142 11	0.357 9	0.720 7	0.214 8	0.092 10	0.724 10	0.596 11	0.056 9	0.655 4	0.525 8	0.581 11	0.352 11	0.594 10	0.056 11	0.000 3	0.014 11	0.224 10	0.772 9	0.205 11	0.720 10	0.000 3	0.159 4	0.531 10	0.163 11	0.294 10	0.136 11	0.000 1	0.169 10	0.589 9	0.000 4	0.000 6	0.000 1	0.002 1	0.663 5	0.466 11	0.265 11	0.582 6	0.337 7	0.016 10	0.559 9	0.084 11	0.000 3	0.000 4	0.000 1	0.036 3	0.000 3	0.125 3	0.670 10	0.000 1	0.102 1	0.071 5	0.164 9	0.406 5	0.386 4	0.046 10	0.068 11	0.159 9	0.117 3	0.284 10	0.111 10	0.094 10	0.000 3	0.000 11	0.197 11	0.000 1	0.044 9	0.013 9	0.002 8	0.228 11	0.307 11	0.588 6	0.025 11	0.545 3	0.134 9	0.000 1	0.655 3	0.302 9	0.282 11	0.000 1	0.060 1	0.000 6	0.035 11	0.000 5	0.000 6	0.097 11	0.000 6	0.000 4	0.005 6	0.000 1	0.000 1	0.096 11	0.000 1	0.334 10	0.000 1	0.000 7	0.274 10	0.000 1	0.513 11	0.000 1	0.000 1	0.280 5	0.194 4	0.897 7	0.000 5	0.000 5	0.000 1	0.000 5	0.000 1	0.108 7	0.279 11	0.189 10	0.141 11	0.059 10	0.272 2	0.307 11	0.445 4	0.003 6	0.000 1	0.353 10	0.000 2	0.026 1	0.000 7	0.581 9	0.001 1	0.000 1	0.000 1	0.093 11	0.002 3	0.000 2	0.000 6	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019

This table lists the benchmark results for the ScanNet200 3D semantic instance scenario.

Method	avg ap	head ap	common ap	tail ap	chair	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

TD3D Scannet200	0.211 2	0.332 2	0.177 2	0.103 2	0.662 1	0.413 2	0.463 2	0.705 1	0.192 3	0.145 1	0.266 2	0.215 1	0.452 4	0.209 2	0.222 5	0.219 5	0.315 2	0.893 1	0.380 2	0.617 2	0.439 2	0.047 4	0.646 1	0.080 2	0.610 3	0.253 1	0.237 2	0.293 2	0.135 1	0.379 5	0.494 2	0.048 1	0.252 2	0.451 2	0.184 2	0.483 1	0.395 2	0.852 1	0.083 2	0.551 2	0.278 2	0.036 2	0.337 2	0.266 2	0.544 1	0.963 1	0.079 5	0.039 1	0.740 2	0.604 2	0.000 2	0.586 1	0.283 2	0.282 2	0.059 2	0.633 3	0.028 2	0.004 2	0.559 2	0.309 2	0.420 2	0.028 5	1.000 1	0.000 1	0.456 1	0.411 1	0.372 1	0.060 4	0.046 4	0.000 2	0.040 4	0.694 1	0.083 2	0.000 2	0.000 1	0.000 2	0.000 3	0.083 4	0.252 2	0.260 5	0.200 1	0.160 1	0.669 2	0.111 2	0.000 2	0.000 1	0.006 2	0.169 2	0.000 1	0.007 1	0.296 2	0.032 1	0.074 1	0.139 3	0.000 2	0.321 2	0.031 1	0.108 2	0.088 2	0.157 1	0.000 1	0.231 5	0.026 5	0.000 2	0.000 1	0.356 2	0.052 2	0.000 1	0.240 1	0.147 1	0.000 1	0.015 2	0.046 3	0.144 3	0.073 3	0.414 1	0.222 4	0.000 1	0.806 1	0.343 3	0.486 3	0.000 1	0.008 1	0.038 2	0.083 1	0.002 1	0.028 2	0.074 2	0.032 2	0.150 2	0.039 2	0.008 1	0.000 1	0.250 4	0.000 1	0.125 4	0.000 1	0.052 2	0.260 3	0.000 1	0.143 5	0.000 1	0.000 1	0.543 2	0.207 2	0.404 1	0.000 1	0.003 2	0.000 1	0.000 2	0.000 1	0.037 2	0.093 4	0.272 2	0.342 1	0.039 4	0.281 2	0.249 3	0.224 1	0.000 2	0.000 1	0.074 1	0.000 1	0.000 1	0.000 2	0.278 2	0.000 1	0.000 2	0.889 1	0.323 1	0.000 2	0.014 1	0.000 2	0.000 1
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
Mask3D Scannet200	0.278 1	0.383 1	0.263 1	0.168 1	0.661 2	0.465 1	0.572 1	0.665 3	0.391 1	0.121 4	0.304 1	0.015 2	0.647 1	0.349 1	0.474 1	0.489 1	0.321 1	0.816 5	0.351 3	0.722 1	0.402 4	0.195 1	0.515 3	0.082 1	0.795 1	0.215 2	0.396 1	0.377 1	0.082 4	0.724 1	0.586 1	0.015 2	0.277 1	0.377 5	0.201 1	0.475 2	0.572 1	0.778 3	0.089 1	0.759 1	0.556 1	0.068 1	0.506 1	0.467 1	0.323 3	0.778 2	0.427 1	0.027 2	0.789 1	0.744 1	0.003 1	0.570 2	0.561 1	0.337 1	0.265 1	0.711 1	0.258 1	0.031 1	0.569 1	0.311 1	0.441 1	0.179 1	1.000 1	0.000 1	0.233 2	0.411 2	0.283 2	0.380 1	0.667 1	0.016 1	0.048 3	0.418 2	0.139 1	0.173 1	0.000 1	0.086 1	0.014 2	0.500 1	0.384 1	0.497 1	0.044 3	0.032 2	0.752 1	0.287 1	0.003 1	0.000 1	0.007 1	0.208 1	0.000 1	0.001 2	0.349 1	0.008 2	0.014 2	0.509 1	0.500 1	0.323 1	0.023 2	0.176 1	0.107 1	0.105 3	0.000 1	0.605 1	0.378 1	0.016 1	0.000 1	0.400 1	0.192 1	0.000 1	0.048 2	0.037 2	0.000 1	0.275 1	0.119 1	0.810 1	0.258 1	0.006 3	0.083 5	0.000 1	0.568 2	0.377 2	0.708 1	0.000 1	0.005 2	0.147 1	0.014 2	0.000 2	0.556 1	0.085 1	0.325 1	0.500 1	0.083 1	0.004 2	0.000 1	0.590 1	0.000 1	0.365 1	0.000 1	0.116 1	0.491 1	0.000 1	0.626 1	0.000 1	0.000 1	0.579 1	0.391 1	0.050 4	0.000 1	0.028 1	0.000 1	0.222 1	0.000 1	0.063 1	0.302 1	0.356 1	0.149 4	0.573 1	0.415 1	0.013 5	0.002 4	0.004 1	0.000 1	0.005 4	0.000 1	0.000 1	0.444 1	0.514 1	0.000 1	0.028 1	0.000 2	0.156 2	0.267 1	0.000 2	1.000 1	0.000 1
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
Minkowski 34D Inst.	0.130 4	0.246 4	0.083 4	0.043 5	0.547 5	0.236 4	0.415 4	0.672 2	0.141 5	0.133 3	0.067 4	0.000 3	0.521 2	0.114 5	0.238 4	0.289 2	0.232 4	0.883 2	0.182 5	0.373 5	0.486 1	0.076 3	0.488 4	0.022 4	0.529 4	0.199 5	0.110 4	0.217 4	0.100 2	0.460 4	0.319 4	0.000 3	0.025 5	0.472 1	0.000 3	0.394 3	0.210 4	0.537 4	0.004 4	0.000 3	0.083 5	0.000 5	0.299 4	0.061 5	0.201 5	0.761 4	0.084 4	0.008 3	0.720 3	0.557 5	0.000 2	0.317 5	0.280 3	0.094 5	0.020 5	0.564 5	0.000 4	0.000 3	0.400 3	0.048 4	0.259 4	0.101 3	1.000 1	0.000 1	0.190 3	0.142 5	0.094 5	0.137 3	0.089 3	0.000 2	0.101 1	0.355 5	0.000 3	0.000 2	0.000 1	0.000 2	0.000 3	0.444 2	0.082 5	0.384 2	0.000 5	0.000 3	0.334 5	0.004 5	0.000 2	0.000 1	0.000 3	0.041 4	0.000 1	0.000 3	0.026 5	0.000 3	0.000 3	0.000 4	0.000 2	0.082 5	0.022 3	0.000 5	0.021 4	0.088 4	0.000 1	0.241 4	0.033 4	0.000 2	0.000 1	0.067 3	0.000 5	0.000 1	0.000 3	0.000 3	0.000 1	0.000 4	0.026 4	0.262 2	0.016 4	0.000 4	0.278 1	0.000 1	0.500 4	0.394 1	0.028 5	0.000 1	0.000 3	0.000 3	0.000 3	0.000 2	0.000 3	0.019 4	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.156 5	0.000 1	0.032 5	0.000 1	0.000 3	0.194 5	0.000 1	0.248 4	0.000 1	0.000 1	0.099 4	0.019 4	0.308 2	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.007 4	0.122 2	0.000 3	0.175 3	0.063 2	0.000 4	0.271 1	0.000 5	0.000 2	0.000 1	0.000 5	0.000 1	0.000 1	0.000 2	0.278 2	0.000 1	0.000 2	0.000 2	0.111 3	0.000 2	0.000 2	0.000 2	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
CSC-Pretrain Inst.	0.123 5	0.223 5	0.082 5	0.046 4	0.564 4	0.152 5	0.394 5	0.578 5	0.235 2	0.116 5	0.034 5	0.000 3	0.348 5	0.119 4	0.297 2	0.285 3	0.202 5	0.838 4	0.323 4	0.407 4	0.184 5	0.037 5	0.516 2	0.013 5	0.424 5	0.214 3	0.093 5	0.105 5	0.078 5	0.542 3	0.250 5	0.000 3	0.064 4	0.444 3	0.000 3	0.224 5	0.231 3	0.537 4	0.001 5	0.000 3	0.126 4	0.004 3	0.308 3	0.193 3	0.244 4	0.343 5	0.228 2	0.000 5	0.441 4	0.588 3	0.000 2	0.338 4	0.275 4	0.189 4	0.030 4	0.600 4	0.000 4	0.000 3	0.378 4	0.000 5	0.108 5	0.098 4	1.000 1	0.000 1	0.096 5	0.172 4	0.144 3	0.011 5	0.125 2	0.000 2	0.000 5	0.376 4	0.000 3	0.000 2	0.000 1	0.000 2	0.000 3	0.042 5	0.141 4	0.377 3	0.051 2	0.000 3	0.483 3	0.017 4	0.000 2	0.000 1	0.000 3	0.022 5	0.000 1	0.000 3	0.065 3	0.000 3	0.000 3	0.000 4	0.000 2	0.094 4	0.000 5	0.042 3	0.000 5	0.064 5	0.000 1	0.259 3	0.089 3	0.000 2	0.000 1	0.000 4	0.022 4	0.000 1	0.000 3	0.000 3	0.000 1	0.000 4	0.018 5	0.111 5	0.000 5	0.000 4	0.278 1	0.000 1	0.444 5	0.333 4	0.333 4	0.000 1	0.000 3	0.000 3	0.000 3	0.000 2	0.000 3	0.000 5	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.267 3	0.000 1	0.184 3	0.000 1	0.000 3	0.211 4	0.000 1	0.378 2	0.000 1	0.000 1	0.063 5	0.000 5	0.275 3	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.007 5	0.105 3	0.000 3	0.032 5	0.045 3	0.198 3	0.171 4	0.028 2	0.000 2	0.000 1	0.006 3	0.000 1	0.000 1	0.000 2	0.278 2	0.000 1	0.000 2	0.000 2	0.044 4	0.000 2	0.000 2	0.000 2	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
LGround Inst.	0.154 3	0.275 3	0.108 3	0.060 3	0.573 3	0.381 3	0.434 3	0.654 4	0.190 4	0.141 2	0.097 3	0.000 3	0.503 3	0.180 3	0.252 3	0.242 4	0.242 3	0.881 3	0.448 1	0.494 3	0.429 3	0.078 2	0.364 5	0.024 3	0.654 2	0.213 4	0.222 3	0.239 3	0.099 3	0.616 2	0.363 3	0.000 3	0.092 3	0.444 3	0.000 3	0.383 4	0.209 5	0.815 2	0.030 3	0.000 3	0.166 3	0.002 4	0.295 5	0.099 4	0.364 2	0.778 2	0.177 3	0.001 4	0.427 5	0.585 4	0.000 2	0.470 3	0.268 5	0.205 3	0.045 3	0.642 2	0.007 3	0.000 3	0.333 5	0.148 3	0.407 3	0.130 2	1.000 1	0.000 1	0.156 4	0.189 3	0.097 4	0.169 2	0.000 5	0.000 2	0.056 2	0.400 3	0.000 3	0.000 2	0.000 1	0.000 2	0.556 1	0.278 3	0.203 3	0.323 4	0.019 4	0.000 3	0.402 4	0.026 3	0.000 2	0.000 1	0.000 3	0.044 3	0.000 1	0.000 3	0.037 4	0.000 3	0.000 3	0.181 2	0.000 2	0.127 3	0.006 4	0.028 4	0.023 3	0.115 2	0.000 1	0.327 2	0.267 2	0.000 2	0.000 1	0.000 4	0.028 3	0.000 1	0.000 3	0.000 3	0.000 1	0.003 3	0.048 2	0.135 4	0.222 2	0.089 2	0.278 1	0.000 1	0.514 3	0.333 4	0.611 2	0.000 1	0.000 3	0.000 3	0.000 3	0.000 2	0.000 3	0.037 3	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.322 2	0.000 1	0.209 2	0.000 1	0.000 3	0.278 2	0.000 1	0.302 3	0.000 1	0.000 1	0.143 3	0.148 3	0.000 5	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.015 3	0.064 5	0.000 3	0.272 2	0.031 5	0.000 4	0.257 2	0.028 2	0.000 2	0.000 1	0.041 2	0.000 1	0.000 1	0.000 2	0.222 5	0.000 1	0.000 2	0.000 2	0.000 5	0.000 2	0.000 2	0.000 2	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild.

ScanNet Benchmark

This table lists the benchmark results for the 3D semantic label scenario.

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

PTv3 ScanNet	0.794 1	0.941 3	0.813 18	0.851 7	0.782 6	0.890 2	0.597 1	0.916 2	0.696 8	0.713 3	0.979 1	0.635 1	0.384 2	0.793 2	0.907 8	0.821 4	0.790 30	0.696 11	0.967 3	0.903 1	0.805 1
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
PonderV2	0.785 2	0.978 1	0.800 26	0.833 22	0.788 4	0.853 16	0.545 16	0.910 5	0.713 1	0.705 4	0.979 1	0.596 7	0.390 1	0.769 11	0.832 41	0.821 4	0.792 29	0.730 1	0.975 1	0.897 4	0.785 4
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
Mix3D	0.781 3	0.964 2	0.855 1	0.843 16	0.781 7	0.858 12	0.575 6	0.831 32	0.685 14	0.714 2	0.979 1	0.594 8	0.310 26	0.801 1	0.892 16	0.841 2	0.819 4	0.723 4	0.940 13	0.887 6	0.725 23
Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann: Mix3D: Out-of-Context Data Augmentation for 3D Scenes. 3DV 2021 (Oral)
Swin3D	0.779 4	0.861 20	0.818 14	0.836 19	0.790 3	0.875 4	0.576 5	0.905 6	0.704 5	0.739 1	0.969 10	0.611 2	0.349 10	0.756 21	0.958 1	0.702 44	0.805 14	0.708 7	0.916 31	0.898 3	0.801 2

TTT-KD	0.773 5	0.646 90	0.818 14	0.809 34	0.774 9	0.878 3	0.581 2	0.943 1	0.687 12	0.704 5	0.978 4	0.607 5	0.336 15	0.775 8	0.912 6	0.838 3	0.823 2	0.694 12	0.967 3	0.899 2	0.794 3
Lisa Weijler, Muhammad Jehanzeb Mirza, Leon Sick, Can Ekkazan, Pedro Hermosilla: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models.
ResLFE_HDS	0.772 6	0.939 4	0.824 6	0.854 6	0.771 10	0.840 30	0.564 10	0.900 8	0.686 13	0.677 11	0.961 16	0.537 30	0.348 11	0.769 11	0.903 10	0.785 10	0.815 6	0.676 21	0.939 14	0.880 11	0.772 8

PPT-SpUNet-Joint	0.766 7	0.932 5	0.794 32	0.829 24	0.751 22	0.854 14	0.540 20	0.903 7	0.630 33	0.672 14	0.963 14	0.565 21	0.357 8	0.788 3	0.900 12	0.737 25	0.802 15	0.685 16	0.950 7	0.887 6	0.780 5
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer	0.766 7	0.925 7	0.808 22	0.849 9	0.786 5	0.846 26	0.566 9	0.876 14	0.690 10	0.674 13	0.960 17	0.576 17	0.226 66	0.753 23	0.904 9	0.777 12	0.815 6	0.722 5	0.923 27	0.877 13	0.776 7
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
CU-Hybrid Net	0.764 9	0.924 8	0.819 12	0.840 17	0.757 17	0.853 16	0.580 3	0.848 25	0.709 3	0.643 23	0.958 20	0.587 12	0.295 32	0.753 23	0.884 20	0.758 19	0.815 6	0.725 3	0.927 24	0.867 21	0.743 14

OccuSeg+Semantic	0.764 9	0.758 58	0.796 30	0.839 18	0.746 24	0.907 1	0.562 11	0.850 24	0.680 16	0.672 14	0.978 4	0.610 3	0.335 17	0.777 6	0.819 44	0.847 1	0.830 1	0.691 14	0.972 2	0.885 8	0.727 21

O-CNN	0.762 11	0.924 8	0.823 7	0.844 15	0.770 11	0.852 18	0.577 4	0.847 27	0.711 2	0.640 27	0.958 20	0.592 9	0.217 72	0.762 16	0.888 17	0.758 19	0.813 10	0.726 2	0.932 22	0.868 20	0.744 13
Peng-Shuai Wang, Yang Liu, Yu-Xiao Guo, Chun-Yu Sun, Xin Tong: O-CNN: Octree-based Convolutional Neural Networks for 3D Shape Analysis. SIGGRAPH 2017
DTC	0.757 12	0.843 26	0.820 10	0.847 12	0.791 2	0.862 10	0.511 32	0.870 16	0.707 4	0.652 19	0.954 34	0.604 6	0.279 43	0.760 17	0.942 2	0.734 26	0.766 43	0.701 10	0.884 53	0.874 18	0.736 15

OA-CNN-L_ScanNet20	0.756 13	0.783 44	0.826 5	0.858 4	0.776 8	0.837 33	0.548 15	0.896 11	0.649 25	0.675 12	0.962 15	0.586 13	0.335 17	0.771 10	0.802 48	0.770 15	0.787 32	0.691 14	0.936 17	0.880 11	0.761 10

ConDaFormer	0.755 14	0.927 6	0.822 8	0.836 19	0.801 1	0.849 21	0.516 30	0.864 21	0.651 24	0.680 10	0.958 20	0.584 15	0.282 40	0.759 19	0.855 31	0.728 28	0.802 15	0.678 18	0.880 58	0.873 19	0.756 11
Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Guisong Xia, Dacheng Tao: ConDaFormer : Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding. Neurips, 2023
PNE	0.755 14	0.786 42	0.835 4	0.834 21	0.758 15	0.849 21	0.570 8	0.836 31	0.648 26	0.668 16	0.978 4	0.581 16	0.367 6	0.683 34	0.856 29	0.804 6	0.801 19	0.678 18	0.961 5	0.889 5	0.716 28
P. Hermosilla: Point Neighborhood Embeddings.
DMF-Net	0.752 16	0.906 12	0.793 34	0.802 40	0.689 39	0.825 45	0.556 12	0.867 17	0.681 15	0.602 43	0.960 17	0.555 26	0.365 7	0.779 5	0.859 26	0.747 22	0.795 26	0.717 6	0.917 30	0.856 29	0.764 9
C.Yang, Y.Yan, W.Zhao, J.Ye, X.Yang, A.Hussain, B.Dong, K.Huang: Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic Segmentation. ICONIP 2023
PointTransformerV2	0.752 16	0.742 66	0.809 21	0.872 1	0.758 15	0.860 11	0.552 13	0.891 12	0.610 40	0.687 6	0.960 17	0.559 24	0.304 29	0.766 14	0.926 4	0.767 16	0.797 22	0.644 32	0.942 11	0.876 16	0.722 25
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao: Point Transformer V2: Grouped Vector Attention and Partition-based Pooling. NeurIPS 2022
PointConvFormer	0.749 18	0.793 40	0.790 35	0.807 36	0.750 23	0.856 13	0.524 26	0.881 13	0.588 52	0.642 26	0.977 8	0.591 10	0.274 46	0.781 4	0.929 3	0.804 6	0.796 23	0.642 33	0.947 9	0.885 8	0.715 29
Wenxuan Wu, Qi Shan, Li Fuxin: PointConvFormer: Revenge of the Point-based Convolution.
BPNet	0.749 18	0.909 10	0.818 14	0.811 32	0.752 20	0.839 32	0.485 46	0.842 28	0.673 17	0.644 22	0.957 24	0.528 36	0.305 28	0.773 9	0.859 26	0.788 8	0.818 5	0.693 13	0.916 31	0.856 29	0.723 24
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MSP	0.748 20	0.623 93	0.804 24	0.859 3	0.745 25	0.824 47	0.501 36	0.912 4	0.690 10	0.685 8	0.956 25	0.567 20	0.320 23	0.768 13	0.918 5	0.720 33	0.802 15	0.676 21	0.921 28	0.881 10	0.779 6

StratifiedFormer	0.747 21	0.901 13	0.803 25	0.845 14	0.757 17	0.846 26	0.512 31	0.825 35	0.696 8	0.645 21	0.956 25	0.576 17	0.262 57	0.744 28	0.861 25	0.742 23	0.770 41	0.705 8	0.899 43	0.860 26	0.734 16
Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia: Stratified Transformer for 3D Point Cloud Segmentation. CVPR 2022
VMNet	0.746 22	0.870 18	0.838 2	0.858 4	0.729 30	0.850 20	0.501 36	0.874 15	0.587 53	0.658 18	0.956 25	0.564 22	0.299 30	0.765 15	0.900 12	0.716 36	0.812 11	0.631 38	0.939 14	0.858 27	0.709 30
Zeyu HU, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai: VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation. ICCV 2021 (Oral)
Virtual MVFusion	0.746 22	0.771 52	0.819 12	0.848 11	0.702 36	0.865 9	0.397 84	0.899 9	0.699 6	0.664 17	0.948 54	0.588 11	0.330 19	0.746 27	0.851 35	0.764 17	0.796 23	0.704 9	0.935 18	0.866 22	0.728 19
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
Retro-FPN	0.744 24	0.842 27	0.800 26	0.767 54	0.740 26	0.836 35	0.541 18	0.914 3	0.672 18	0.626 31	0.958 20	0.552 27	0.272 48	0.777 6	0.886 19	0.696 45	0.801 19	0.674 24	0.941 12	0.858 27	0.717 26
Peng Xiang, Xin Wen, Yu-Shen Liu, Hui Zhang, Yi Fang, Zhizhong Han: Retrospective Feature Pyramid Network for Point Cloud Semantic Segmentation. ICCV 2023
EQ-Net	0.743 25	0.620 94	0.799 29	0.849 9	0.730 29	0.822 49	0.493 43	0.897 10	0.664 19	0.681 9	0.955 28	0.562 23	0.378 3	0.760 17	0.903 10	0.738 24	0.801 19	0.673 25	0.907 35	0.877 13	0.745 12
Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya JIa: A Unified Query-based Paradigm for Point Cloud Understanding. CVPR 2022
SAT	0.742 26	0.860 21	0.765 48	0.819 27	0.769 12	0.848 23	0.533 22	0.829 33	0.663 20	0.631 30	0.955 28	0.586 13	0.274 46	0.753 23	0.896 14	0.729 27	0.760 49	0.666 27	0.921 28	0.855 31	0.733 17

LRPNet	0.742 26	0.816 35	0.806 23	0.807 36	0.752 20	0.828 43	0.575 6	0.839 30	0.699 6	0.637 28	0.954 34	0.520 39	0.320 23	0.755 22	0.834 39	0.760 18	0.772 38	0.676 21	0.915 33	0.862 24	0.717 26

LargeKernel3D	0.739 28	0.909 10	0.820 10	0.806 38	0.740 26	0.852 18	0.545 16	0.826 34	0.594 51	0.643 23	0.955 28	0.541 29	0.263 56	0.723 32	0.858 28	0.775 14	0.767 42	0.678 18	0.933 20	0.848 36	0.694 35
Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia: LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs. CVPR 2023
MinkowskiNet	0.736 29	0.859 22	0.818 14	0.832 23	0.709 34	0.840 30	0.521 28	0.853 23	0.660 22	0.643 23	0.951 44	0.544 28	0.286 38	0.731 30	0.893 15	0.675 54	0.772 38	0.683 17	0.874 65	0.852 34	0.727 21
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
RPN	0.736 29	0.776 48	0.790 35	0.851 7	0.754 19	0.854 14	0.491 45	0.866 19	0.596 50	0.686 7	0.955 28	0.536 31	0.342 13	0.624 49	0.869 22	0.787 9	0.802 15	0.628 39	0.927 24	0.875 17	0.704 32

IPCA	0.731 31	0.890 14	0.837 3	0.864 2	0.726 31	0.873 5	0.530 25	0.824 36	0.489 86	0.647 20	0.978 4	0.609 4	0.336 15	0.624 49	0.733 57	0.758 19	0.776 36	0.570 64	0.949 8	0.877 13	0.728 19

SparseConvNet	0.725 32	0.647 89	0.821 9	0.846 13	0.721 32	0.869 6	0.533 22	0.754 57	0.603 46	0.614 35	0.955 28	0.572 19	0.325 21	0.710 33	0.870 21	0.724 31	0.823 2	0.628 39	0.934 19	0.865 23	0.683 38

PointTransformer++	0.725 32	0.727 74	0.811 20	0.819 27	0.765 13	0.841 29	0.502 35	0.814 41	0.621 36	0.623 33	0.955 28	0.556 25	0.284 39	0.620 51	0.866 23	0.781 11	0.757 53	0.648 30	0.932 22	0.862 24	0.709 30

MatchingNet	0.724 34	0.812 37	0.812 19	0.810 33	0.735 28	0.834 37	0.495 42	0.860 22	0.572 60	0.602 43	0.954 34	0.512 41	0.280 42	0.757 20	0.845 37	0.725 30	0.780 34	0.606 49	0.937 16	0.851 35	0.700 34

INS-Conv-semantic	0.717 35	0.751 61	0.759 51	0.812 31	0.704 35	0.868 7	0.537 21	0.842 28	0.609 42	0.608 39	0.953 38	0.534 33	0.293 33	0.616 52	0.864 24	0.719 35	0.793 27	0.640 34	0.933 20	0.845 40	0.663 44

PointMetaBase	0.714 36	0.835 28	0.785 37	0.821 25	0.684 41	0.846 26	0.531 24	0.865 20	0.614 37	0.596 47	0.953 38	0.500 44	0.246 62	0.674 35	0.888 17	0.692 46	0.764 45	0.624 41	0.849 80	0.844 41	0.675 40

contrastBoundary	0.705 37	0.769 55	0.775 42	0.809 34	0.687 40	0.820 52	0.439 72	0.812 42	0.661 21	0.591 49	0.945 62	0.515 40	0.171 90	0.633 46	0.856 29	0.720 33	0.796 23	0.668 26	0.889 50	0.847 37	0.689 36
Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao: Contrastive Boundary Learning for Point Cloud Segmentation. CVPR2022
ClickSeg_Semantic	0.703 38	0.774 50	0.800 26	0.793 45	0.760 14	0.847 25	0.471 50	0.802 45	0.463 93	0.634 29	0.968 12	0.491 47	0.271 50	0.726 31	0.910 7	0.706 40	0.815 6	0.551 76	0.878 59	0.833 42	0.570 76

RFCR	0.702 39	0.889 15	0.745 62	0.813 30	0.672 44	0.818 56	0.493 43	0.815 40	0.623 34	0.610 37	0.947 56	0.470 56	0.249 61	0.594 55	0.848 36	0.705 41	0.779 35	0.646 31	0.892 48	0.823 48	0.611 59
Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma: Omni-Supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning. CVPR2021
One Thing One Click	0.701 40	0.825 32	0.796 30	0.723 61	0.716 33	0.832 39	0.433 74	0.816 38	0.634 31	0.609 38	0.969 10	0.418 82	0.344 12	0.559 67	0.833 40	0.715 37	0.808 13	0.560 70	0.902 40	0.847 37	0.680 39

JSENet	0.699 41	0.881 17	0.762 49	0.821 25	0.667 45	0.800 68	0.522 27	0.792 48	0.613 38	0.607 40	0.935 82	0.492 46	0.205 77	0.576 60	0.853 33	0.691 48	0.758 51	0.652 29	0.872 68	0.828 45	0.649 48
Zeyu HU, Mingmin Zhen, Xuyang BAI, Hongbo Fu, Chiew-lan Tai: JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D Point Clouds. ECCV 2020
One-Thing-One-Click	0.693 42	0.743 65	0.794 32	0.655 84	0.684 41	0.822 49	0.497 41	0.719 67	0.622 35	0.617 34	0.977 8	0.447 69	0.339 14	0.750 26	0.664 73	0.703 43	0.790 30	0.596 54	0.946 10	0.855 31	0.647 49
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
PicassoNet-II	0.692 43	0.732 70	0.772 43	0.786 46	0.677 43	0.866 8	0.517 29	0.848 25	0.509 79	0.626 31	0.952 42	0.536 31	0.225 68	0.545 73	0.704 64	0.689 51	0.810 12	0.564 69	0.903 39	0.854 33	0.729 18
Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian: Geometric feature learning for 3D meshes.
Feature_GeometricNet	0.690 44	0.884 16	0.754 55	0.795 43	0.647 52	0.818 56	0.422 76	0.802 45	0.612 39	0.604 41	0.945 62	0.462 59	0.189 85	0.563 66	0.853 33	0.726 29	0.765 44	0.632 37	0.904 37	0.821 51	0.606 63
Kangcheng Liu, Ben M. Chen: https://arxiv.org/abs/2012.09439. arXiv Preprint
FusionNet	0.688 45	0.704 79	0.741 66	0.754 58	0.656 47	0.829 41	0.501 36	0.741 62	0.609 42	0.548 57	0.950 48	0.522 38	0.371 4	0.633 46	0.756 52	0.715 37	0.771 40	0.623 42	0.861 76	0.814 54	0.658 45
Feihu Zhang, Jin Fang, Benjamin Wah, Philip Torr: Deep FusionNet for Point Cloud Semantic Segmentation. ECCV 2020
Feature-Geometry Net	0.685 46	0.866 19	0.748 59	0.819 27	0.645 54	0.794 71	0.450 62	0.802 45	0.587 53	0.604 41	0.945 62	0.464 58	0.201 80	0.554 69	0.840 38	0.723 32	0.732 63	0.602 52	0.907 35	0.822 50	0.603 66

KP-FCNN	0.684 47	0.847 25	0.758 53	0.784 48	0.647 52	0.814 59	0.473 49	0.772 51	0.605 44	0.594 48	0.935 82	0.450 67	0.181 88	0.587 56	0.805 47	0.690 49	0.785 33	0.614 45	0.882 55	0.819 52	0.632 55
H. Thomas, C. Qi, J. Deschaud, B. Marcotegui, F. Goulette, L. Guibas.: KPConv: Flexible and Deformable Convolution for Point Clouds. ICCV 2019
VACNN++	0.684 47	0.728 73	0.757 54	0.776 51	0.690 37	0.804 66	0.464 55	0.816 38	0.577 59	0.587 50	0.945 62	0.508 43	0.276 45	0.671 36	0.710 62	0.663 59	0.750 57	0.589 59	0.881 56	0.832 44	0.653 47

DGNet	0.684 47	0.712 78	0.784 38	0.782 50	0.658 46	0.835 36	0.499 40	0.823 37	0.641 28	0.597 46	0.950 48	0.487 49	0.281 41	0.575 61	0.619 77	0.647 67	0.764 45	0.620 44	0.871 71	0.846 39	0.688 37

PointContrast_LA_SEM	0.683 50	0.757 59	0.784 38	0.786 46	0.639 56	0.824 47	0.408 79	0.775 50	0.604 45	0.541 59	0.934 86	0.532 34	0.269 52	0.552 70	0.777 50	0.645 70	0.793 27	0.640 34	0.913 34	0.824 47	0.671 41

Superpoint Network	0.683 50	0.851 24	0.728 70	0.800 42	0.653 49	0.806 64	0.468 52	0.804 43	0.572 60	0.602 43	0.946 59	0.453 66	0.239 65	0.519 78	0.822 42	0.689 51	0.762 48	0.595 56	0.895 46	0.827 46	0.630 56

VI-PointConv	0.676 52	0.770 54	0.754 55	0.783 49	0.621 60	0.814 59	0.552 13	0.758 55	0.571 62	0.557 55	0.954 34	0.529 35	0.268 54	0.530 76	0.682 68	0.675 54	0.719 66	0.603 51	0.888 51	0.833 42	0.665 43
Xingyi Li, Wenxuan Wu, Xiaoli Z. Fern, Li Fuxin: The Devils in the Point Clouds: Studying the Robustness of Point Cloud Convolutions.
ROSMRF3D	0.673 53	0.789 41	0.748 59	0.763 56	0.635 58	0.814 59	0.407 81	0.747 59	0.581 57	0.573 52	0.950 48	0.484 50	0.271 50	0.607 53	0.754 53	0.649 64	0.774 37	0.596 54	0.883 54	0.823 48	0.606 63

SALANet	0.670 54	0.816 35	0.770 46	0.768 53	0.652 50	0.807 63	0.451 59	0.747 59	0.659 23	0.545 58	0.924 92	0.473 55	0.149 100	0.571 63	0.811 46	0.635 73	0.746 58	0.623 42	0.892 48	0.794 67	0.570 76

O3DSeg	0.668 55	0.822 33	0.771 45	0.496 104	0.651 51	0.833 38	0.541 18	0.761 54	0.555 68	0.611 36	0.966 13	0.489 48	0.370 5	0.388 98	0.580 80	0.776 13	0.751 55	0.570 64	0.956 6	0.817 53	0.646 50

PointConv	0.666 56	0.781 45	0.759 51	0.699 69	0.644 55	0.822 49	0.475 48	0.779 49	0.564 65	0.504 75	0.953 38	0.428 76	0.203 79	0.586 58	0.754 53	0.661 60	0.753 54	0.588 60	0.902 40	0.813 56	0.642 51
Wenxuan Wu, Zhongang Qi, Li Fuxin: PointConv: Deep Convolutional Networks on 3D Point Clouds. CVPR 2019
PointASNL	0.666 56	0.703 80	0.781 40	0.751 60	0.655 48	0.830 40	0.471 50	0.769 52	0.474 89	0.537 61	0.951 44	0.475 54	0.279 43	0.635 44	0.698 67	0.675 54	0.751 55	0.553 75	0.816 87	0.806 58	0.703 33
Xu Yan, Chaoda Zheng, Zhen Li, Sheng Wang, Shuguang Cui: PointASNL: Robust Point Clouds Processing using Nonlocal Neural Networks with Adaptive Sampling. CVPR 2020
PPCNN++	0.663 58	0.746 63	0.708 73	0.722 62	0.638 57	0.820 52	0.451 59	0.566 95	0.599 48	0.541 59	0.950 48	0.510 42	0.313 25	0.648 41	0.819 44	0.616 78	0.682 81	0.590 58	0.869 72	0.810 57	0.656 46
Pyunghwan Ahn, Juyoung Yang, Eojindl Yi, Chanho Lee, Junmo Kim: Projection-based Point Convolution for Efficient Point Cloud Segmentation. IEEE Access
MVF-GNN	0.658 59	0.558 101	0.751 57	0.655 84	0.690 37	0.722 93	0.453 58	0.867 17	0.579 58	0.576 51	0.893 104	0.523 37	0.293 33	0.733 29	0.571 82	0.692 46	0.659 88	0.606 49	0.875 62	0.804 60	0.668 42

DCM-Net	0.658 59	0.778 46	0.702 76	0.806 38	0.619 61	0.813 62	0.468 52	0.693 75	0.494 82	0.524 67	0.941 74	0.449 68	0.298 31	0.510 80	0.821 43	0.675 54	0.727 65	0.568 67	0.826 85	0.803 61	0.637 53
Jonas Schult, Francis Engelmann, Theodora Kontogianni, Bastian Leibe: DualConvMesh-Net: Joint Geodesic and Euclidean Convolutions on 3D Meshes. CVPR 2020 [Oral]
HPGCNN	0.656 61	0.698 82	0.743 64	0.650 86	0.564 78	0.820 52	0.505 34	0.758 55	0.631 32	0.479 79	0.945 62	0.480 52	0.226 66	0.572 62	0.774 51	0.690 49	0.735 61	0.614 45	0.853 79	0.776 82	0.597 69
Jisheng Dang, Qingyong Hu, Yulan Guo, Jun Yang: HPGCNN.
SAFNet-seg	0.654 62	0.752 60	0.734 68	0.664 82	0.583 73	0.815 58	0.399 83	0.754 57	0.639 29	0.535 63	0.942 72	0.470 56	0.309 27	0.665 37	0.539 84	0.650 63	0.708 71	0.635 36	0.857 78	0.793 69	0.642 51
Linqing Zhao, Jiwen Lu, Jie Zhou: Similarity-Aware Fusion Network for 3D Semantic Segmentation. IROS 2021
RandLA-Net	0.645 63	0.778 46	0.731 69	0.699 69	0.577 74	0.829 41	0.446 64	0.736 63	0.477 88	0.523 69	0.945 62	0.454 63	0.269 52	0.484 88	0.749 56	0.618 76	0.738 59	0.599 53	0.827 84	0.792 72	0.621 58

PointConv-SFPN	0.641 64	0.776 48	0.703 75	0.721 63	0.557 81	0.826 44	0.451 59	0.672 80	0.563 66	0.483 78	0.943 71	0.425 79	0.162 95	0.644 42	0.726 58	0.659 61	0.709 70	0.572 63	0.875 62	0.786 77	0.559 82

MVPNet	0.641 64	0.831 29	0.715 71	0.671 79	0.590 69	0.781 77	0.394 85	0.679 77	0.642 27	0.553 56	0.937 79	0.462 59	0.256 58	0.649 40	0.406 98	0.626 74	0.691 78	0.666 27	0.877 60	0.792 72	0.608 62
Maximilian Jaritz, Jiayuan Gu, Hao Su: Multi-view PointNet for 3D Scene Understanding. GMDL Workshop, ICCV 2019
PointMRNet	0.640 66	0.717 77	0.701 77	0.692 72	0.576 75	0.801 67	0.467 54	0.716 68	0.563 66	0.459 85	0.953 38	0.429 75	0.169 92	0.581 59	0.854 32	0.605 79	0.710 68	0.550 77	0.894 47	0.793 69	0.575 74

FPConv	0.639 67	0.785 43	0.760 50	0.713 67	0.603 64	0.798 69	0.392 86	0.534 100	0.603 46	0.524 67	0.948 54	0.457 61	0.250 60	0.538 74	0.723 60	0.598 83	0.696 76	0.614 45	0.872 68	0.799 62	0.567 79
Yiqun Lin, Zizheng Yan, Haibin Huang, Dong Du, Ligang Liu, Shuguang Cui, Xiaoguang Han: FPConv: Learning Local Flattening for Point Convolution. CVPR 2020
PD-Net	0.638 68	0.797 39	0.769 47	0.641 92	0.590 69	0.820 52	0.461 56	0.537 99	0.637 30	0.536 62	0.947 56	0.388 89	0.206 76	0.656 38	0.668 71	0.647 67	0.732 63	0.585 61	0.868 73	0.793 69	0.473 102

PointSPNet	0.637 69	0.734 69	0.692 84	0.714 66	0.576 75	0.797 70	0.446 64	0.743 61	0.598 49	0.437 90	0.942 72	0.403 85	0.150 99	0.626 48	0.800 49	0.649 64	0.697 75	0.557 73	0.846 81	0.777 81	0.563 80

SConv	0.636 70	0.830 30	0.697 80	0.752 59	0.572 77	0.780 79	0.445 66	0.716 68	0.529 72	0.530 64	0.951 44	0.446 70	0.170 91	0.507 83	0.666 72	0.636 72	0.682 81	0.541 83	0.886 52	0.799 62	0.594 70

Supervoxel-CNN	0.635 71	0.656 87	0.711 72	0.719 64	0.613 62	0.757 88	0.444 69	0.765 53	0.534 71	0.566 53	0.928 90	0.478 53	0.272 48	0.636 43	0.531 86	0.664 58	0.645 92	0.508 90	0.864 75	0.792 72	0.611 59

joint point-based	0.634 72	0.614 95	0.778 41	0.667 81	0.633 59	0.825 45	0.420 77	0.804 43	0.467 91	0.561 54	0.951 44	0.494 45	0.291 35	0.566 64	0.458 93	0.579 89	0.764 45	0.559 72	0.838 82	0.814 54	0.598 68
Hung-Yueh Chiang, Yen-Liang Lin, Yueh-Cheng Liu, Winston H. Hsu: A Unified Point-Based Framework for 3D Segmentation. 3DV 2019
PointMTL	0.632 73	0.731 71	0.688 87	0.675 76	0.591 68	0.784 76	0.444 69	0.565 96	0.610 40	0.492 76	0.949 52	0.456 62	0.254 59	0.587 56	0.706 63	0.599 82	0.665 87	0.612 48	0.868 73	0.791 75	0.579 73

3DSM_DMMF	0.631 74	0.626 92	0.745 62	0.801 41	0.607 63	0.751 89	0.506 33	0.729 66	0.565 64	0.491 77	0.866 107	0.434 71	0.197 83	0.595 54	0.630 76	0.709 39	0.705 73	0.560 70	0.875 62	0.740 92	0.491 97

PointNet2-SFPN	0.631 74	0.771 52	0.692 84	0.672 77	0.524 86	0.837 33	0.440 71	0.706 73	0.538 70	0.446 87	0.944 68	0.421 81	0.219 71	0.552 70	0.751 55	0.591 85	0.737 60	0.543 82	0.901 42	0.768 84	0.557 83

APCF-Net	0.631 74	0.742 66	0.687 89	0.672 77	0.557 81	0.792 74	0.408 79	0.665 81	0.545 69	0.508 72	0.952 42	0.428 76	0.186 86	0.634 45	0.702 65	0.620 75	0.706 72	0.555 74	0.873 66	0.798 64	0.581 72
Haojia, Lin: Adaptive Pyramid Context Fusion for Point Cloud Perception. GRSL
FusionAwareConv	0.630 77	0.604 97	0.741 66	0.766 55	0.590 69	0.747 90	0.501 36	0.734 64	0.503 81	0.527 65	0.919 96	0.454 63	0.323 22	0.550 72	0.420 97	0.678 53	0.688 79	0.544 80	0.896 45	0.795 66	0.627 57
Jiazhao Zhang, Chenyang Zhu, Lintao Zheng, Kai Xu: Fusion-Aware Point Convolution for Online Semantic 3D Scene Segmentation. CVPR 2020
DenSeR	0.628 78	0.800 38	0.625 100	0.719 64	0.545 83	0.806 64	0.445 66	0.597 89	0.448 96	0.519 70	0.938 78	0.481 51	0.328 20	0.489 87	0.499 91	0.657 62	0.759 50	0.592 57	0.881 56	0.797 65	0.634 54

SegGroup_sem	0.627 79	0.818 34	0.747 61	0.701 68	0.602 65	0.764 85	0.385 90	0.629 86	0.490 84	0.508 72	0.931 89	0.409 84	0.201 80	0.564 65	0.725 59	0.618 76	0.692 77	0.539 84	0.873 66	0.794 67	0.548 86
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
SIConv	0.625 80	0.830 30	0.694 82	0.757 57	0.563 79	0.772 83	0.448 63	0.647 84	0.520 75	0.509 71	0.949 52	0.431 74	0.191 84	0.496 85	0.614 78	0.647 67	0.672 85	0.535 86	0.876 61	0.783 78	0.571 75

dtc_net	0.625 80	0.703 80	0.751 57	0.794 44	0.535 84	0.848 23	0.480 47	0.676 79	0.528 73	0.469 82	0.944 68	0.454 63	0.004 113	0.464 90	0.636 75	0.704 42	0.758 51	0.548 79	0.924 26	0.787 76	0.492 96

HPEIN	0.618 82	0.729 72	0.668 90	0.647 88	0.597 67	0.766 84	0.414 78	0.680 76	0.520 75	0.525 66	0.946 59	0.432 72	0.215 73	0.493 86	0.599 79	0.638 71	0.617 97	0.570 64	0.897 44	0.806 58	0.605 65
Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi-Wing Fu, Jiaya Jia: Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation. ICCV 2019
SPH3D-GCN	0.610 83	0.858 23	0.772 43	0.489 105	0.532 85	0.792 74	0.404 82	0.643 85	0.570 63	0.507 74	0.935 82	0.414 83	0.046 110	0.510 80	0.702 65	0.602 81	0.705 73	0.549 78	0.859 77	0.773 83	0.534 89
Huan Lei, Naveed Akhtar, and Ajmal Mian: Spherical Kernel for Efficient Graph Convolution on 3D Point Clouds. TPAMI 2020
AttAN	0.609 84	0.760 57	0.667 91	0.649 87	0.521 87	0.793 72	0.457 57	0.648 83	0.528 73	0.434 92	0.947 56	0.401 86	0.153 98	0.454 91	0.721 61	0.648 66	0.717 67	0.536 85	0.904 37	0.765 85	0.485 98
Gege Zhang, Qinghua Ma, Licheng Jiao, Fang Liu and Qigong Sun: AttAN: Attention Adversarial Networks for 3D Point Cloud Semantic Segmentation. IJCAI2020
wsss-transformer	0.600 85	0.634 91	0.743 64	0.697 71	0.601 66	0.781 77	0.437 73	0.585 92	0.493 83	0.446 87	0.933 87	0.394 87	0.011 112	0.654 39	0.661 74	0.603 80	0.733 62	0.526 87	0.832 83	0.761 87	0.480 99

LAP-D	0.594 86	0.720 75	0.692 84	0.637 93	0.456 97	0.773 82	0.391 88	0.730 65	0.587 53	0.445 89	0.940 76	0.381 90	0.288 36	0.434 94	0.453 95	0.591 85	0.649 90	0.581 62	0.777 91	0.749 91	0.610 61

DPC	0.592 87	0.720 75	0.700 78	0.602 97	0.480 93	0.762 87	0.380 91	0.713 71	0.585 56	0.437 90	0.940 76	0.369 92	0.288 36	0.434 94	0.509 90	0.590 87	0.639 95	0.567 68	0.772 93	0.755 89	0.592 71
Francis Engelmann, Theodora Kontogianni, Bastian Leibe: Dilated Point Convolutions: On the Receptive Field Size of Point Convolutions on 3D Point Clouds. ICRA 2020
CCRFNet	0.589 88	0.766 56	0.659 95	0.683 74	0.470 96	0.740 92	0.387 89	0.620 88	0.490 84	0.476 80	0.922 94	0.355 95	0.245 63	0.511 79	0.511 89	0.571 90	0.643 93	0.493 94	0.872 68	0.762 86	0.600 67

ROSMRF	0.580 89	0.772 51	0.707 74	0.681 75	0.563 79	0.764 85	0.362 93	0.515 101	0.465 92	0.465 84	0.936 81	0.427 78	0.207 75	0.438 92	0.577 81	0.536 93	0.675 84	0.486 95	0.723 99	0.779 79	0.524 92

SD-DETR	0.576 90	0.746 63	0.609 104	0.445 109	0.517 88	0.643 104	0.366 92	0.714 70	0.456 94	0.468 83	0.870 106	0.432 72	0.264 55	0.558 68	0.674 69	0.586 88	0.688 79	0.482 96	0.739 97	0.733 94	0.537 88

SQN_0.1%	0.569 91	0.676 84	0.696 81	0.657 83	0.497 89	0.779 80	0.424 75	0.548 97	0.515 77	0.376 97	0.902 103	0.422 80	0.357 8	0.379 99	0.456 94	0.596 84	0.659 88	0.544 80	0.685 102	0.665 105	0.556 84

TextureNet	0.566 92	0.672 86	0.664 92	0.671 79	0.494 91	0.719 94	0.445 66	0.678 78	0.411 102	0.396 95	0.935 82	0.356 94	0.225 68	0.412 96	0.535 85	0.565 91	0.636 96	0.464 98	0.794 90	0.680 102	0.568 78
Jingwei Huang, Haotian Zhang, Li Yi, Thomas Funkerhouser, Matthias Niessner, Leonidas Guibas: TextureNet: Consistent Local Parametrizations for Learning from High-Resolution Signals on Meshes. CVPR
DVVNet	0.562 93	0.648 88	0.700 78	0.770 52	0.586 72	0.687 98	0.333 97	0.650 82	0.514 78	0.475 81	0.906 100	0.359 93	0.223 70	0.340 101	0.442 96	0.422 104	0.668 86	0.501 91	0.708 100	0.779 79	0.534 89

Pointnet++ & Feature	0.557 94	0.735 68	0.661 94	0.686 73	0.491 92	0.744 91	0.392 86	0.539 98	0.451 95	0.375 98	0.946 59	0.376 91	0.205 77	0.403 97	0.356 101	0.553 92	0.643 93	0.497 92	0.824 86	0.756 88	0.515 93

GMLPs	0.538 95	0.495 106	0.693 83	0.647 88	0.471 95	0.793 72	0.300 100	0.477 102	0.505 80	0.358 100	0.903 102	0.327 98	0.081 107	0.472 89	0.529 87	0.448 102	0.710 68	0.509 88	0.746 95	0.737 93	0.554 85

PanopticFusion-label	0.529 96	0.491 107	0.688 87	0.604 96	0.386 102	0.632 105	0.225 110	0.705 74	0.434 99	0.293 106	0.815 108	0.348 96	0.241 64	0.499 84	0.669 70	0.507 95	0.649 90	0.442 104	0.796 89	0.602 109	0.561 81
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
subcloud_weak	0.516 97	0.676 84	0.591 107	0.609 94	0.442 98	0.774 81	0.335 96	0.597 89	0.422 101	0.357 101	0.932 88	0.341 97	0.094 106	0.298 103	0.528 88	0.473 100	0.676 83	0.495 93	0.602 108	0.721 97	0.349 109

Online SegFusion	0.515 98	0.607 96	0.644 98	0.579 99	0.434 99	0.630 106	0.353 94	0.628 87	0.440 97	0.410 93	0.762 112	0.307 100	0.167 93	0.520 77	0.403 99	0.516 94	0.565 100	0.447 102	0.678 103	0.701 99	0.514 94
Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstroem, Cristian Sminchisescu, Luc van Gool: A Real-Time Learning Framework for Joint 3D Reconstruction and Semantic Segmentation. Robotics and Automation Letters Submission
3DMV, FTSDF	0.501 99	0.558 101	0.608 105	0.424 111	0.478 94	0.690 97	0.246 106	0.586 91	0.468 90	0.450 86	0.911 98	0.394 87	0.160 96	0.438 92	0.212 108	0.432 103	0.541 106	0.475 97	0.742 96	0.727 95	0.477 100

PCNN	0.498 100	0.559 100	0.644 98	0.560 101	0.420 101	0.711 96	0.229 108	0.414 103	0.436 98	0.352 102	0.941 74	0.324 99	0.155 97	0.238 108	0.387 100	0.493 96	0.529 107	0.509 88	0.813 88	0.751 90	0.504 95

Weakly-Openseg v3	0.489 101	0.749 62	0.664 92	0.646 90	0.496 90	0.559 110	0.122 113	0.577 93	0.257 113	0.364 99	0.805 109	0.198 111	0.096 105	0.510 80	0.496 92	0.361 108	0.563 101	0.359 111	0.777 91	0.644 106	0.532 91

3DMV	0.484 102	0.484 108	0.538 109	0.643 91	0.424 100	0.606 109	0.310 98	0.574 94	0.433 100	0.378 96	0.796 110	0.301 101	0.214 74	0.537 75	0.208 109	0.472 101	0.507 110	0.413 107	0.693 101	0.602 109	0.539 87
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
PointCNN with RGB	0.458 103	0.577 99	0.611 103	0.356 113	0.321 110	0.715 95	0.299 102	0.376 107	0.328 109	0.319 104	0.944 68	0.285 103	0.164 94	0.216 111	0.229 106	0.484 98	0.545 105	0.456 100	0.755 94	0.709 98	0.475 101
Yangyan Li, Rui Bu, Mingchao Sun, Baoquan Chen: PointCNN. NeurIPS 2018
FCPN	0.447 104	0.679 83	0.604 106	0.578 100	0.380 103	0.682 99	0.291 103	0.106 113	0.483 87	0.258 111	0.920 95	0.258 107	0.025 111	0.231 110	0.325 102	0.480 99	0.560 103	0.463 99	0.725 98	0.666 104	0.231 113
Dario Rethage, Johanna Wald, Jürgen Sturm, Nassir Navab, Federico Tombari: Fully-Convolutional Point Networks for Large-Scale Point Clouds. ECCV 2018
DGCNN_reproduce	0.446 105	0.474 109	0.623 101	0.463 107	0.366 105	0.651 102	0.310 98	0.389 106	0.349 107	0.330 103	0.937 79	0.271 105	0.126 102	0.285 104	0.224 107	0.350 110	0.577 99	0.445 103	0.625 106	0.723 96	0.394 105
Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E. Sarma, Michael M. Bronstein, Justin M. Solomon: Dynamic Graph CNN for Learning on Point Clouds. TOG 2019
PNET2	0.442 106	0.548 103	0.548 108	0.597 98	0.363 106	0.628 107	0.300 100	0.292 108	0.374 104	0.307 105	0.881 105	0.268 106	0.186 86	0.238 108	0.204 110	0.407 105	0.506 111	0.449 101	0.667 104	0.620 108	0.462 103

SurfaceConvPF	0.442 106	0.505 105	0.622 102	0.380 112	0.342 108	0.654 101	0.227 109	0.397 105	0.367 105	0.276 108	0.924 92	0.240 108	0.198 82	0.359 100	0.262 104	0.366 106	0.581 98	0.435 105	0.640 105	0.668 103	0.398 104
Hao Pan, Shilin Liu, Yang Liu, Xin Tong: Convolutional Neural Networks on 3D Surfaces Using Parallel Frames.
Tangent Convolutions	0.438 108	0.437 111	0.646 97	0.474 106	0.369 104	0.645 103	0.353 94	0.258 110	0.282 111	0.279 107	0.918 97	0.298 102	0.147 101	0.283 105	0.294 103	0.487 97	0.562 102	0.427 106	0.619 107	0.633 107	0.352 108
Maxim Tatarchenko, Jaesik Park, Vladlen Koltun, Qian-Yi Zhou: Tangent convolutions for dense prediction in 3d. CVPR 2018
3DWSSS	0.425 109	0.525 104	0.647 96	0.522 102	0.324 109	0.488 113	0.077 114	0.712 72	0.353 106	0.401 94	0.636 114	0.281 104	0.176 89	0.340 101	0.565 83	0.175 114	0.551 104	0.398 108	0.370 114	0.602 109	0.361 107

SPLAT Net	0.393 110	0.472 110	0.511 110	0.606 95	0.311 111	0.656 100	0.245 107	0.405 104	0.328 109	0.197 112	0.927 91	0.227 110	0.000 115	0.001 115	0.249 105	0.271 113	0.510 108	0.383 110	0.593 109	0.699 100	0.267 111
Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz: SPLATNet: Sparse Lattice Networks for Point Cloud Processing. CVPR 2018
ScanNet+FTSDF	0.383 111	0.297 113	0.491 111	0.432 110	0.358 107	0.612 108	0.274 104	0.116 112	0.411 102	0.265 109	0.904 101	0.229 109	0.079 108	0.250 106	0.185 111	0.320 111	0.510 108	0.385 109	0.548 110	0.597 112	0.394 105

PointNet++	0.339 112	0.584 98	0.478 112	0.458 108	0.256 113	0.360 114	0.250 105	0.247 111	0.278 112	0.261 110	0.677 113	0.183 112	0.117 103	0.212 112	0.145 113	0.364 107	0.346 114	0.232 114	0.548 110	0.523 113	0.252 112
Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas: pointnet++: deep hierarchical feature learning on point sets in a metric space.
SSC-UNet	0.308 113	0.353 112	0.290 114	0.278 114	0.166 114	0.553 111	0.169 112	0.286 109	0.147 114	0.148 114	0.908 99	0.182 113	0.064 109	0.023 114	0.018 115	0.354 109	0.363 112	0.345 112	0.546 112	0.685 101	0.278 110

ScanNet	0.306 114	0.203 114	0.366 113	0.501 103	0.311 111	0.524 112	0.211 111	0.002 115	0.342 108	0.189 113	0.786 111	0.145 114	0.102 104	0.245 107	0.152 112	0.318 112	0.348 113	0.300 113	0.460 113	0.437 114	0.182 114
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17
ERROR	0.054 115	0.000 115	0.041 115	0.172 115	0.030 115	0.062 115	0.001 115	0.035 114	0.004 115	0.051 115	0.143 115	0.019 115	0.003 114	0.041 113	0.050 114	0.003 115	0.054 115	0.018 115	0.005 115	0.264 115	0.082 115

This table lists the benchmark results for the 3D semantic instance scenario.

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

Spherical Mask(CtoF)	0.616 1	0.946 5	0.654 9	0.555 4	0.434 8	0.769 4	0.271 7	0.604 8	0.447 3	0.505 3	0.549 1	0.698 2	0.716 2	0.775 10	0.480 5	0.747 4	0.575 6	0.925 8	0.436 4

SIM3D	0.614 2	0.952 4	0.654 8	0.539 6	0.422 11	0.768 6	0.302 4	0.688 2	0.419 5	0.476 9	0.511 10	0.703 1	0.717 1	0.743 18	0.460 12	0.770 1	0.565 9	0.914 11	0.446 2

ExtMask3D	0.598 3	0.852 13	0.692 4	0.433 24	0.461 5	0.791 1	0.264 8	0.488 29	0.493 1	0.508 2	0.528 9	0.594 7	0.706 4	0.791 5	0.483 3	0.734 7	0.595 2	0.911 13	0.437 3

MAFT	0.596 4	0.889 11	0.721 1	0.448 17	0.460 6	0.768 5	0.251 9	0.558 17	0.408 6	0.504 4	0.539 5	0.616 5	0.618 8	0.858 2	0.482 4	0.684 15	0.551 11	0.931 7	0.450 1

UniPerception	0.588 5	0.963 3	0.667 6	0.493 10	0.472 4	0.750 8	0.229 12	0.528 22	0.468 2	0.498 6	0.542 4	0.643 3	0.530 17	0.661 31	0.463 9	0.695 14	0.599 1	0.972 1	0.420 5

InsSSM	0.586 6	1.000 1	0.593 14	0.440 20	0.480 2	0.771 2	0.345 1	0.437 33	0.444 4	0.495 7	0.548 3	0.579 10	0.621 7	0.720 22	0.409 16	0.712 9	0.593 3	0.960 3	0.395 7

Queryformer	0.583 7	0.926 7	0.702 2	0.393 30	0.504 1	0.733 14	0.276 6	0.527 23	0.373 11	0.479 8	0.534 7	0.533 16	0.697 5	0.720 23	0.436 14	0.745 5	0.592 4	0.958 4	0.363 15

PBNet	0.573 8	0.926 7	0.575 19	0.619 1	0.472 3	0.736 12	0.239 11	0.487 30	0.383 10	0.459 12	0.506 13	0.533 15	0.585 10	0.767 11	0.404 17	0.717 8	0.559 10	0.969 2	0.381 11
W.Zhao, Y.Yan, C.Yang, J.Ye,X.Yang,K.Huang: Divide and Conquer: 3D Instance Segmentation With Point-Wise Binarization. ICCV 2023
TST3D	0.569 9	0.778 20	0.675 5	0.598 2	0.451 7	0.727 15	0.280 5	0.476 32	0.395 7	0.472 10	0.457 21	0.583 8	0.580 12	0.777 7	0.462 11	0.735 6	0.547 13	0.919 10	0.333 21

OneFormer3D	0.566 10	0.781 19	0.697 3	0.562 3	0.431 9	0.770 3	0.331 2	0.400 39	0.373 12	0.529 1	0.504 14	0.568 12	0.475 22	0.732 20	0.470 7	0.762 2	0.550 12	0.871 28	0.379 12
Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: OneFormer3D: One Transformer for Unified Point Cloud Segmentation.
Mask3D	0.566 10	0.926 7	0.597 13	0.408 27	0.420 12	0.737 11	0.239 10	0.598 10	0.386 9	0.458 13	0.549 1	0.568 13	0.716 2	0.601 37	0.480 5	0.646 19	0.575 6	0.922 9	0.364 14
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
ISBNet	0.559 12	0.939 6	0.655 7	0.383 33	0.426 10	0.763 7	0.180 14	0.534 21	0.386 8	0.499 5	0.509 12	0.621 4	0.427 32	0.704 26	0.467 8	0.649 18	0.571 8	0.948 5	0.401 6
Tuan Duc Ngo, Binh-Son Hua, Khoi Nguyen: ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution. CVPR 2023
GraphCut	0.552 13	1.000 1	0.611 12	0.438 21	0.392 15	0.714 16	0.139 17	0.598 11	0.327 15	0.389 16	0.510 11	0.598 6	0.427 33	0.754 14	0.463 10	0.761 3	0.588 5	0.903 16	0.329 22

SPFormer	0.549 14	0.745 23	0.640 10	0.484 11	0.395 14	0.739 10	0.311 3	0.566 15	0.335 14	0.468 11	0.492 15	0.555 14	0.478 21	0.747 16	0.436 13	0.712 10	0.540 14	0.893 20	0.343 20
Sun Jiahao, Qing Chunmei, Tan Junpeng, Xu Xiangmin: Superpoint Transformer for 3D Scene Instance Segmentation. AAAI 2023 [Oral]
DKNet	0.532 15	0.815 16	0.624 11	0.517 7	0.377 17	0.749 9	0.107 19	0.509 26	0.304 17	0.437 14	0.475 16	0.581 9	0.539 15	0.775 9	0.339 22	0.640 21	0.506 17	0.901 17	0.385 10
Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong: 3D Instances as 1D Kernels. ECCV 2022
IPCA-Inst	0.520 16	0.889 11	0.551 23	0.548 5	0.418 13	0.665 26	0.064 28	0.585 12	0.260 25	0.277 30	0.471 18	0.500 17	0.644 6	0.785 6	0.369 18	0.591 27	0.511 15	0.878 25	0.362 16

SoftGroup++	0.513 17	0.704 29	0.578 18	0.398 29	0.363 23	0.704 17	0.061 29	0.647 5	0.297 22	0.378 19	0.537 6	0.343 20	0.614 9	0.828 4	0.295 27	0.710 12	0.505 19	0.875 27	0.394 8

SSTNet	0.506 18	0.738 26	0.549 24	0.497 9	0.316 28	0.693 20	0.178 15	0.377 42	0.198 31	0.330 21	0.463 20	0.576 11	0.515 18	0.857 3	0.494 1	0.637 22	0.457 23	0.943 6	0.290 31
Zhihao Liang, Zhihao Li, Songcen Xu, Mingkui Tan, Kui Jia: Instance Segmentation in 3D Scenes using Semantic Superpoint Tree Networks. ICCV2021
SoftGroup	0.504 19	0.667 36	0.579 16	0.372 35	0.381 16	0.694 19	0.072 25	0.677 3	0.303 18	0.387 17	0.531 8	0.319 24	0.582 11	0.754 13	0.318 23	0.643 20	0.492 20	0.907 15	0.388 9
Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo: SoftGroup for 3D Instance Segmentaiton on Point Clouds. CVPR 2022 [Oral]
DANCENET	0.504 19	0.926 7	0.579 15	0.472 13	0.367 20	0.626 36	0.165 16	0.432 34	0.221 27	0.408 15	0.449 23	0.411 18	0.564 13	0.746 17	0.421 15	0.707 13	0.438 26	0.846 36	0.288 32

TD3D	0.489 21	0.852 13	0.511 33	0.434 22	0.322 27	0.735 13	0.101 22	0.512 25	0.355 13	0.349 20	0.468 19	0.283 28	0.514 19	0.676 30	0.268 32	0.671 16	0.510 16	0.908 14	0.329 23
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
OccuSeg+instance	0.486 22	0.802 18	0.536 26	0.428 25	0.369 19	0.702 18	0.205 13	0.331 47	0.301 19	0.379 18	0.474 17	0.327 21	0.437 27	0.862 1	0.485 2	0.601 25	0.394 34	0.846 38	0.273 35
Lei Han, Tian Zheng, Lan Xu, Lu Fang: OccuSeg: Occupancy-aware 3D Instance Segmentation. CVPR2020
TopoSeg	0.479 23	0.704 29	0.564 20	0.467 15	0.366 21	0.633 34	0.068 26	0.554 18	0.262 24	0.328 22	0.447 24	0.323 22	0.534 16	0.722 21	0.288 29	0.614 23	0.482 21	0.912 12	0.358 18

DualGroup	0.469 24	0.815 16	0.552 22	0.398 28	0.374 18	0.683 22	0.130 18	0.539 20	0.310 16	0.327 23	0.407 27	0.276 29	0.447 26	0.535 41	0.342 21	0.659 17	0.455 24	0.900 19	0.301 27

SSEC	0.465 25	0.667 36	0.578 17	0.502 8	0.362 24	0.641 33	0.035 38	0.605 7	0.291 23	0.323 24	0.451 22	0.296 26	0.417 36	0.677 29	0.245 36	0.501 45	0.506 18	0.900 18	0.366 13

HAIS	0.457 26	0.704 29	0.561 21	0.457 16	0.364 22	0.673 23	0.046 37	0.547 19	0.194 32	0.308 25	0.426 25	0.288 27	0.454 25	0.711 24	0.262 33	0.563 35	0.434 28	0.889 22	0.344 19
Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang: Hierarchical Aggregation for 3D Instance Segmentation. ICCV 2021
DD-UNet+Group	0.436 27	0.630 44	0.508 36	0.480 12	0.310 30	0.624 38	0.065 27	0.638 6	0.174 33	0.256 34	0.384 31	0.194 41	0.428 30	0.759 12	0.289 28	0.574 32	0.400 32	0.849 35	0.291 30
H. Liu, R. Liu, K. Yang, J. Zhang, K. Peng, R. Stiefelhagen: HIDA: Towards Holistic Indoor Understanding for the Visually Impaired via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor. ICCVW 2021
INS-Conv-instance	0.435 28	0.716 28	0.495 38	0.355 37	0.331 25	0.689 21	0.102 21	0.394 41	0.208 30	0.280 28	0.395 29	0.250 32	0.544 14	0.741 19	0.309 25	0.536 41	0.391 35	0.842 41	0.258 39

Mask-Group	0.434 29	0.778 20	0.516 31	0.471 14	0.330 26	0.658 27	0.029 40	0.526 24	0.249 26	0.256 33	0.400 28	0.309 25	0.384 40	0.296 57	0.368 19	0.575 31	0.425 29	0.877 26	0.362 17
Min Zhong, Xinghao Chen, Xiaokang Chen, Gang Zeng, Yunhe Wang: MaskGroup: Hierarchical Point Grouping and Masking for 3D Instance Segmentation. ICME 2022
Box2Mask	0.433 30	0.741 24	0.463 43	0.433 23	0.283 33	0.625 37	0.103 20	0.298 52	0.125 42	0.260 32	0.424 26	0.322 23	0.472 23	0.701 27	0.363 20	0.711 11	0.309 51	0.882 23	0.272 37
Julian Chibane, Francis Engelmann, Tuan Anh Tran, Gerard Pons-Moll: Box2Mask: Weakly Supervised 3D Semantic Instance Segmentation Using Bounding Boxes. ECCV 2022
RPGN	0.428 31	0.630 44	0.508 35	0.367 36	0.249 40	0.658 28	0.016 48	0.673 4	0.131 40	0.234 37	0.383 32	0.270 30	0.434 28	0.748 15	0.274 31	0.609 24	0.406 31	0.842 40	0.267 38
Shichao Dong, Guosheng Lin, Tzu-Yi Hung: Learning Regional Purity for Instance Segmentation on 3D Point Clouds. ECCV 2022
DENet	0.413 32	0.741 24	0.520 28	0.237 48	0.284 32	0.523 47	0.097 23	0.691 1	0.138 37	0.209 47	0.229 49	0.238 35	0.390 38	0.707 25	0.310 24	0.448 52	0.470 22	0.892 21	0.310 25

PointGroup	0.407 33	0.639 43	0.496 37	0.415 26	0.243 42	0.645 32	0.021 45	0.570 14	0.114 43	0.211 45	0.359 34	0.217 39	0.428 31	0.660 32	0.256 34	0.562 36	0.341 43	0.860 31	0.291 29
Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia: PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation. CVPR 2020 [oral]
CSC-Pretrained	0.405 34	0.738 26	0.465 42	0.331 41	0.205 46	0.655 29	0.051 33	0.601 9	0.092 47	0.211 46	0.329 37	0.198 40	0.459 24	0.775 8	0.195 43	0.524 43	0.400 33	0.878 24	0.184 48

PE	0.396 35	0.667 36	0.467 41	0.446 19	0.243 41	0.624 39	0.022 44	0.577 13	0.106 44	0.219 40	0.340 35	0.239 34	0.487 20	0.475 48	0.225 38	0.541 40	0.350 41	0.818 43	0.273 36
Biao Zhang, Peter Wonka: Point Cloud Instance Segmentation using Probabilistic Embeddings. CVPR 2021
Dyco3D	0.395 36	0.642 42	0.518 30	0.447 18	0.259 39	0.666 25	0.050 34	0.251 57	0.166 34	0.231 38	0.362 33	0.232 36	0.331 43	0.535 40	0.229 37	0.587 28	0.438 27	0.850 33	0.317 24
Tong He; Chunhua Shen; Anton van den Hengel: DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution. CVPR2021
OSIS	0.392 37	0.778 20	0.530 27	0.220 50	0.278 34	0.567 44	0.083 24	0.330 48	0.299 20	0.270 31	0.310 40	0.143 47	0.260 47	0.624 35	0.277 30	0.568 34	0.361 39	0.865 30	0.301 26

AOIA	0.387 38	0.704 29	0.515 32	0.385 32	0.225 45	0.669 24	0.005 55	0.482 31	0.126 41	0.181 50	0.269 46	0.221 38	0.426 34	0.478 47	0.218 39	0.592 26	0.371 37	0.851 32	0.242 41

SSEN	0.384 39	0.852 13	0.494 39	0.192 51	0.226 44	0.648 31	0.022 43	0.398 40	0.299 21	0.277 29	0.317 39	0.231 37	0.194 54	0.514 44	0.196 41	0.586 29	0.444 25	0.843 39	0.184 47
Dongsu Zhang, Junha Chun, Sang Kyun Cha, Young Min Kim: Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with Deep Metric Learning. Arxiv
Mask3D_evaluation	0.382 40	0.593 46	0.520 29	0.390 31	0.314 29	0.600 40	0.018 47	0.287 55	0.151 36	0.281 27	0.387 30	0.169 45	0.429 29	0.654 33	0.172 47	0.578 30	0.384 36	0.670 54	0.278 34

PCJC	0.375 41	0.704 29	0.542 25	0.284 45	0.197 48	0.649 30	0.006 52	0.426 35	0.138 38	0.242 35	0.304 41	0.183 44	0.388 39	0.629 34	0.141 54	0.546 39	0.344 42	0.738 49	0.283 33

ClickSeg_Instance	0.366 42	0.654 40	0.375 47	0.184 52	0.302 31	0.592 42	0.050 35	0.300 51	0.093 46	0.283 26	0.277 43	0.249 33	0.426 35	0.615 36	0.299 26	0.504 44	0.367 38	0.832 42	0.191 46

SphereSeg	0.357 43	0.651 41	0.411 45	0.345 38	0.264 38	0.630 35	0.059 30	0.289 54	0.212 28	0.240 36	0.336 36	0.158 46	0.305 44	0.557 38	0.159 50	0.455 51	0.341 44	0.726 51	0.294 28

3D-MPA	0.355 44	0.457 56	0.484 40	0.299 43	0.277 35	0.591 43	0.047 36	0.332 45	0.212 29	0.217 41	0.278 42	0.193 42	0.413 37	0.410 51	0.195 42	0.574 33	0.352 40	0.849 34	0.213 44
Francis Engelmann, Martin Bokeloh, Alireza Fathi, Bastian Leibe, Matthias Nießner: 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation. CVPR 2020
NeuralBF	0.353 45	0.593 46	0.511 34	0.375 34	0.264 37	0.597 41	0.008 50	0.332 46	0.160 35	0.229 39	0.274 45	0.000 68	0.206 51	0.678 28	0.155 51	0.485 47	0.422 30	0.816 44	0.254 40
Weiwei Sun, Daniel Rebain, Renjie Liao, Vladimir Tankovich, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi: NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation on Point Clouds. WACV 2023
RWSeg	0.348 46	0.475 53	0.456 44	0.320 42	0.275 36	0.476 49	0.020 46	0.491 28	0.056 54	0.212 44	0.320 38	0.261 31	0.302 45	0.520 42	0.182 45	0.557 37	0.285 53	0.867 29	0.197 45

GICN	0.341 47	0.580 48	0.371 48	0.344 39	0.198 47	0.469 50	0.052 32	0.564 16	0.093 45	0.212 43	0.212 51	0.127 49	0.347 42	0.537 39	0.206 40	0.525 42	0.329 46	0.729 50	0.241 42

One_Thing_One_Click	0.326 48	0.472 54	0.361 49	0.232 49	0.183 49	0.555 45	0.000 61	0.498 27	0.038 56	0.195 48	0.226 50	0.362 19	0.168 55	0.469 49	0.251 35	0.553 38	0.335 45	0.846 37	0.117 56
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
Occipital-SCS	0.320 49	0.679 35	0.352 50	0.334 40	0.229 43	0.436 51	0.025 41	0.412 38	0.058 52	0.161 55	0.240 48	0.085 51	0.262 46	0.496 46	0.187 44	0.467 49	0.328 47	0.775 45	0.231 43

Sparse R-CNN	0.292 50	0.704 29	0.213 60	0.153 54	0.154 51	0.551 46	0.053 31	0.212 58	0.132 39	0.174 52	0.274 44	0.070 53	0.363 41	0.441 50	0.176 46	0.424 54	0.234 55	0.758 47	0.161 52

MTML	0.282 51	0.577 49	0.380 46	0.182 53	0.107 57	0.430 52	0.001 58	0.422 36	0.057 53	0.179 51	0.162 54	0.070 54	0.229 49	0.511 45	0.161 48	0.491 46	0.313 48	0.650 57	0.162 50
Jean Lahoud, Bernard Ghanem, Marc Pollefeys, Martin R. Oswald: 3D Instance Segmentation via Multi-task Metric Learning. ICCV 2019 [oral]
SALoss-ResNet	0.262 52	0.667 36	0.335 51	0.067 61	0.123 55	0.427 53	0.022 42	0.280 56	0.058 51	0.216 42	0.211 52	0.039 57	0.142 57	0.519 43	0.106 58	0.338 58	0.310 50	0.721 52	0.138 53
Zhidong Liang, Ming Yang, Hao Li, Chunxiang Wang: 3D Instance Embedding Learning With a Structure-Aware Loss Function for Point Cloud Segmentation. IEEE Robotics and Automation Letters (IROS2020)
MASC	0.254 53	0.463 55	0.249 59	0.113 55	0.167 50	0.412 55	0.000 60	0.374 43	0.073 48	0.173 53	0.243 47	0.130 48	0.228 50	0.368 53	0.160 49	0.356 56	0.208 56	0.711 53	0.136 54
Chen Liu, Yasutaka Furukawa: MASC: Multi-scale Affinity with Sparse Convolution for 3D Instance Segmentation.
3D-BoNet	0.253 54	0.519 51	0.324 54	0.251 47	0.137 54	0.345 60	0.031 39	0.419 37	0.069 49	0.162 54	0.131 56	0.052 55	0.202 53	0.338 55	0.147 53	0.301 61	0.303 52	0.651 56	0.178 49
Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen Wang, Andrew Markham, Niki Trigoni: Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds. NeurIPS 2019 Spotlight
SPG_WSIS	0.251 55	0.380 58	0.274 57	0.289 44	0.144 52	0.413 54	0.000 61	0.311 49	0.065 50	0.113 57	0.130 57	0.029 60	0.204 52	0.388 52	0.108 57	0.459 50	0.311 49	0.769 46	0.127 55

SegGroup_ins	0.246 56	0.556 50	0.335 52	0.062 63	0.115 56	0.490 48	0.000 61	0.297 53	0.018 60	0.186 49	0.142 55	0.083 52	0.233 48	0.216 59	0.153 52	0.469 48	0.251 54	0.744 48	0.083 59
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
PanopticFusion-inst	0.214 57	0.250 63	0.330 53	0.275 46	0.103 58	0.228 66	0.000 61	0.345 44	0.024 58	0.088 59	0.203 53	0.186 43	0.167 56	0.367 54	0.125 55	0.221 64	0.112 66	0.666 55	0.162 51
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
UNet-backbone	0.161 58	0.519 51	0.259 58	0.084 57	0.059 60	0.325 62	0.002 56	0.093 63	0.009 62	0.077 61	0.064 60	0.045 56	0.044 64	0.161 61	0.045 60	0.331 59	0.180 58	0.566 58	0.033 68

3D-SIS	0.161 58	0.407 57	0.155 65	0.068 60	0.043 64	0.346 59	0.001 57	0.134 60	0.005 63	0.088 58	0.106 59	0.037 58	0.135 59	0.321 56	0.028 64	0.339 57	0.116 65	0.466 61	0.093 58
Ji Hou, Angela Dai, Matthias Niessner: 3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. CVPR 2019
R-PointNet	0.158 60	0.356 59	0.173 63	0.113 56	0.140 53	0.359 56	0.012 49	0.023 66	0.039 55	0.134 56	0.123 58	0.008 64	0.089 60	0.149 62	0.117 56	0.221 63	0.128 63	0.563 59	0.094 57

Region-18class	0.146 61	0.175 67	0.321 55	0.080 58	0.062 59	0.357 57	0.000 61	0.307 50	0.002 65	0.066 62	0.044 62	0.000 68	0.018 66	0.036 67	0.054 59	0.447 53	0.133 61	0.472 60	0.060 63

SemRegionNet-20cls	0.121 62	0.296 61	0.203 61	0.071 59	0.058 61	0.349 58	0.000 61	0.150 59	0.019 59	0.054 64	0.034 65	0.017 63	0.052 62	0.042 66	0.013 67	0.209 65	0.183 57	0.371 62	0.057 64

3D-BEVIS	0.117 63	0.250 63	0.308 56	0.020 67	0.009 69	0.269 65	0.006 53	0.008 67	0.029 57	0.037 67	0.014 68	0.003 66	0.036 65	0.147 63	0.042 62	0.381 55	0.118 64	0.362 63	0.069 62
Cathrin Elich, Francis Engelmann, Jonas Schult, Theodora Kontogianni, Bastian Leibe: 3D-BEVIS: Birds-Eye-View Instance Segmentation.
Hier3D	0.117 63	0.222 65	0.161 64	0.054 65	0.027 66	0.289 63	0.000 61	0.124 61	0.001 67	0.079 60	0.061 61	0.027 61	0.141 58	0.240 58	0.005 68	0.310 60	0.129 62	0.153 68	0.081 60
Tan: HCFS3D: Hierarchical Coupled Feature Selection Network for 3D Semantic and Instance Segmentation.
tmp	0.113 65	0.333 60	0.151 66	0.056 64	0.053 62	0.344 61	0.000 61	0.105 62	0.016 61	0.049 65	0.035 64	0.020 62	0.053 61	0.048 65	0.013 66	0.183 67	0.173 59	0.344 65	0.054 65

Sem_Recon_ins	0.098 66	0.295 62	0.187 62	0.015 68	0.036 65	0.213 67	0.005 54	0.038 65	0.003 64	0.056 63	0.037 63	0.036 59	0.015 67	0.051 64	0.044 61	0.209 66	0.098 67	0.354 64	0.071 61

ASIS	0.085 67	0.037 68	0.080 68	0.066 62	0.047 63	0.282 64	0.000 61	0.052 64	0.002 66	0.047 66	0.026 66	0.001 67	0.046 63	0.194 60	0.031 63	0.264 62	0.140 60	0.167 67	0.047 67

Sgpn_scannet	0.049 68	0.023 69	0.134 67	0.031 66	0.013 68	0.144 68	0.006 51	0.008 68	0.000 68	0.028 68	0.017 67	0.003 65	0.009 69	0.000 68	0.021 65	0.122 68	0.095 68	0.175 66	0.054 66

MaskRCNN 2d->3d Proj	0.022 69	0.185 66	0.000 69	0.000 69	0.015 67	0.000 69	0.000 59	0.006 69	0.000 68	0.010 69	0.006 69	0.107 50	0.012 68	0.000 68	0.002 69	0.027 69	0.004 69	0.022 69	0.001 69

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

Virtual MVFusion (R)	0.745 1	0.861 1	0.839 1	0.881 1	0.672 2	0.512 1	0.422 17	0.898 1	0.723 1	0.714 1	0.954 2	0.454 1	0.509 1	0.773 1	0.895 1	0.756 1	0.820 1	0.653 1	0.935 1	0.891 1	0.728 1
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
BPNet_2D	0.670 2	0.822 3	0.795 3	0.836 2	0.659 3	0.481 2	0.451 13	0.769 4	0.656 3	0.567 4	0.931 3	0.395 6	0.390 5	0.700 4	0.534 4	0.689 10	0.770 2	0.574 3	0.865 9	0.831 3	0.675 5
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia and Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MVF-GNN（2D）	0.636 3	0.606 14	0.794 4	0.434 16	0.688 1	0.337 8	0.464 12	0.798 3	0.632 5	0.589 3	0.908 8	0.420 2	0.329 12	0.743 2	0.594 2	0.738 2	0.676 5	0.527 4	0.906 2	0.818 6	0.715 3

CU-Hybrid-2D Net	0.636 3	0.825 2	0.820 2	0.179 23	0.648 4	0.463 3	0.549 2	0.742 7	0.676 2	0.628 2	0.961 1	0.420 2	0.379 6	0.684 8	0.381 18	0.732 3	0.723 3	0.599 2	0.827 16	0.851 2	0.634 7

CMX	0.613 5	0.681 8	0.725 12	0.502 12	0.634 6	0.297 18	0.478 10	0.830 2	0.651 4	0.537 7	0.924 4	0.375 7	0.315 14	0.686 7	0.451 14	0.714 5	0.543 21	0.504 6	0.894 7	0.823 5	0.688 4

DMMF_3d	0.605 6	0.651 9	0.744 10	0.782 3	0.637 5	0.387 4	0.536 3	0.732 8	0.590 7	0.540 6	0.856 21	0.359 11	0.306 15	0.596 14	0.539 3	0.627 20	0.706 4	0.497 8	0.785 21	0.757 19	0.476 22

EMSANet	0.600 7	0.716 4	0.746 9	0.395 18	0.614 9	0.382 5	0.523 4	0.713 11	0.571 11	0.503 10	0.922 6	0.404 5	0.397 4	0.655 9	0.400 16	0.626 21	0.663 6	0.469 13	0.900 4	0.827 4	0.577 14
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
MCA-Net	0.595 8	0.533 20	0.756 8	0.746 4	0.590 10	0.334 10	0.506 7	0.670 15	0.587 8	0.500 12	0.905 10	0.366 10	0.352 9	0.601 13	0.506 8	0.669 16	0.648 9	0.501 7	0.839 15	0.769 15	0.516 21

RFBNet	0.592 9	0.616 11	0.758 7	0.659 5	0.581 11	0.330 11	0.469 11	0.655 18	0.543 14	0.524 8	0.924 4	0.355 13	0.336 11	0.572 17	0.479 10	0.671 14	0.648 9	0.480 10	0.814 19	0.814 7	0.614 10

FAN_NV_RVC	0.586 10	0.510 21	0.764 6	0.079 26	0.620 8	0.330 11	0.494 8	0.753 5	0.573 9	0.556 5	0.884 16	0.405 4	0.303 16	0.718 3	0.452 13	0.672 13	0.658 7	0.509 5	0.898 5	0.813 8	0.727 2

DCRedNet	0.583 11	0.682 7	0.723 13	0.542 11	0.510 20	0.310 15	0.451 13	0.668 16	0.549 13	0.520 9	0.920 7	0.375 7	0.446 2	0.528 20	0.417 15	0.670 15	0.577 18	0.478 11	0.862 10	0.806 9	0.628 9

MIX6D_RVC	0.582 12	0.695 5	0.687 17	0.225 21	0.632 7	0.328 13	0.550 1	0.748 6	0.623 6	0.494 15	0.890 14	0.350 15	0.254 23	0.688 6	0.454 12	0.716 4	0.597 17	0.489 9	0.881 8	0.768 16	0.575 15

SSMA	0.577 13	0.695 5	0.716 15	0.439 14	0.563 14	0.314 14	0.444 15	0.719 9	0.551 12	0.503 10	0.887 15	0.346 16	0.348 10	0.603 12	0.353 20	0.709 6	0.600 15	0.457 14	0.901 3	0.786 11	0.599 13
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
DMMF	0.567 14	0.623 10	0.767 5	0.238 20	0.571 13	0.347 6	0.413 19	0.719 9	0.472 20	0.418 22	0.895 13	0.357 12	0.260 22	0.696 5	0.523 7	0.666 17	0.642 11	0.437 18	0.895 6	0.793 10	0.603 12

UNIV_CNP_RVC_UE	0.566 15	0.569 19	0.686 19	0.435 15	0.524 17	0.294 19	0.421 18	0.712 12	0.543 14	0.463 17	0.872 17	0.320 17	0.363 8	0.611 11	0.477 11	0.686 11	0.627 12	0.443 17	0.862 10	0.775 14	0.639 6

EMSAFormer	0.564 16	0.581 16	0.736 11	0.564 10	0.546 16	0.219 23	0.517 5	0.675 14	0.486 19	0.427 21	0.904 11	0.352 14	0.320 13	0.589 15	0.528 5	0.708 7	0.464 24	0.413 22	0.847 14	0.786 11	0.611 11

SN_RN152pyrx8_RVC	0.546 17	0.572 17	0.663 21	0.638 7	0.518 18	0.298 17	0.366 24	0.633 21	0.510 17	0.446 19	0.864 19	0.296 20	0.267 19	0.542 19	0.346 21	0.704 8	0.575 19	0.431 19	0.853 13	0.766 17	0.630 8

UDSSEG_RVC	0.545 18	0.610 13	0.661 22	0.588 8	0.556 15	0.268 21	0.482 9	0.642 20	0.572 10	0.475 16	0.836 23	0.312 18	0.367 7	0.630 10	0.189 23	0.639 19	0.495 23	0.452 15	0.826 17	0.756 20	0.541 17

segfomer with 6d	0.542 19	0.594 15	0.687 17	0.146 24	0.579 12	0.308 16	0.515 6	0.703 13	0.472 20	0.498 13	0.868 18	0.369 9	0.282 17	0.589 15	0.390 17	0.701 9	0.556 20	0.416 21	0.860 12	0.759 18	0.539 19

FuseNet	0.535 20	0.570 18	0.681 20	0.182 22	0.512 19	0.290 20	0.431 16	0.659 17	0.504 18	0.495 14	0.903 12	0.308 19	0.428 3	0.523 21	0.365 19	0.676 12	0.621 14	0.470 12	0.762 22	0.779 13	0.541 17
Caner Hazirbas, Lingni Ma, Csaba Domokos, Daniel Cremers: FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. ACCV 2016
AdapNet++	0.503 21	0.613 12	0.722 14	0.418 17	0.358 26	0.337 8	0.370 23	0.479 24	0.443 22	0.368 24	0.907 9	0.207 23	0.213 25	0.464 24	0.525 6	0.618 22	0.657 8	0.450 16	0.788 20	0.721 23	0.408 25
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
3DMV (2d proj)	0.498 22	0.481 24	0.612 23	0.579 9	0.456 22	0.343 7	0.384 21	0.623 22	0.525 16	0.381 23	0.845 22	0.254 22	0.264 21	0.557 18	0.182 24	0.581 24	0.598 16	0.429 20	0.760 23	0.661 25	0.446 24
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
MSeg1080_RVC	0.485 23	0.505 22	0.709 16	0.092 25	0.427 23	0.241 22	0.411 20	0.654 19	0.385 26	0.457 18	0.861 20	0.053 26	0.279 18	0.503 22	0.481 9	0.645 18	0.626 13	0.365 24	0.748 24	0.725 22	0.529 20
John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun: MSeg: A Composite Dataset for Multi-domain Semantic Segmentation. CVPR 2020
ILC-PSPNet	0.475 24	0.490 23	0.581 24	0.289 19	0.507 21	0.067 26	0.379 22	0.610 23	0.417 24	0.435 20	0.822 25	0.278 21	0.267 19	0.503 22	0.228 22	0.616 23	0.533 22	0.375 23	0.820 18	0.729 21	0.560 16

Enet (reimpl)	0.376 25	0.264 26	0.452 26	0.452 13	0.365 24	0.181 24	0.143 26	0.456 25	0.409 25	0.346 25	0.769 26	0.164 24	0.218 24	0.359 25	0.123 26	0.403 26	0.381 26	0.313 26	0.571 25	0.685 24	0.472 23
Re-implementation of Adam Paszke, Abhishek Chaurasia, Sangpil Kim, Eugenio Culurciello: ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation.
ScanNet (2d proj)	0.330 26	0.293 25	0.521 25	0.657 6	0.361 25	0.161 25	0.250 25	0.004 26	0.440 23	0.183 26	0.836 23	0.125 25	0.060 26	0.319 26	0.132 25	0.417 25	0.412 25	0.344 25	0.541 26	0.427 26	0.109 26
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17

Presenting the ScanNet200 Benchmark

ScanNet200 Benchmark

ScanNet200 3D Semantic Label Benchmark

ScanNet200 3D Semantic Instance Benchmark

ScanNet Benchmark

3D Semantic Label Benchmark

3D Semantic Instance Benchmark

2D Semantic Label Benchmark

2D Semantic Instance Benchmark

Scene Type Classification Benchmark

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

EMSANet (Instance)	0.241 1	0.401 1	0.439 1	0.085 1	0.242 1	0.220 1	0.081 1	0.289 2	0.117 2	0.121 1	0.182 1	0.126 1	0.346 1	0.181 2	0.181 2	0.358 1	0.156 1	0.675 2	0.131 1
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
UniDet_RVC	0.205 2	0.381 2	0.323 3	0.037 3	0.226 3	0.177 3	0.063 2	0.277 3	0.120 1	0.067 3	0.131 3	0.074 3	0.317 2	0.080 3	0.235 1	0.289 3	0.141 3	0.678 1	0.080 3

FKNet	0.204 3	0.334 3	0.358 2	0.038 2	0.234 2	0.184 2	0.025 3	0.318 1	0.042 4	0.088 2	0.141 2	0.053 4	0.300 3	0.207 1	0.171 3	0.292 2	0.149 2	0.636 3	0.109 2

MaskRCNN_ScanNet	0.119 4	0.129 4	0.212 4	0.002 4	0.112 4	0.148 4	0.014 4	0.205 4	0.044 3	0.066 4	0.078 4	0.095 2	0.142 4	0.030 4	0.128 4	0.139 4	0.080 4	0.459 4	0.057 4
Re-implementation of Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick: Mask R-CNN. ICCV'17

Method	avg recall	apartment	bathroom	bedroom / hotel	bookstore / library	conference room	copy/mail room	hallway	kitchen	laundry room	living room / lounge	misc	office	storage / basement / garage

LAST-PCL-type	0.780 1	0.250 3	1.000 1	1.000 1	1.000 1	1.000 1	1.000 1	0.500 2	1.000 1	0.500 2	0.889 1	0.000 2	1.000 1	1.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang: Language-Assisted 3D Scene Understanding. arxiv23.12
multi-task	0.700 2	0.500 1	1.000 1	0.882 3	0.500 3	1.000 1	1.000 1	0.500 2	1.000 1	1.000 1	0.778 2	0.000 2	0.938 2	0.000 3
Shengyu Huang, Mikhail Usvyatsov, Konrad Schindler: Indoor Scene Recognition in 3D. IROS 2020
3DASPP-SCE	0.691 3	0.500 1	0.938 3	0.824 4	1.000 1	1.000 1	0.500 3	1.000 1	0.857 3	0.500 2	0.556 4	0.000 2	0.812 3	0.500 2

SE-ResNeXt-SSMA	0.498 4	0.000 5	0.812 4	0.941 2	0.500 3	0.500 4	0.500 3	0.500 2	0.429 5	0.500 2	0.667 3	0.500 1	0.625 4	0.000 3
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. arXiv
resnet50_scannet	0.353 5	0.250 3	0.812 4	0.529 5	0.500 3	0.500 4	0.000 5	0.500 2	0.571 4	0.000 5	0.556 4	0.000 2	0.375 5	0.000 3