Benchmark Results - ScanNet Benchmark

This table lists the benchmark results for the ScanNet200 3D semantic label scenario.

Method	avg iou	head iou	common iou	tail iou	backpack	bag	ball	bar	basket	bathroom cabinet	bathroom stall	bathroom stall door	bathroom vanity	bathtub	bed	bench	bicycle	bin	blackboard	blanket	blinds	board	book	bookshelf	bottle	bowl	box	broom	bucket	bulletin board	cabinet	calendar	candle	cart	case of water bottles	ceiling	ceiling light	chair	clock	closet	closet rod	clothes	clothes dryer	coat rack	coffee kettle	coffee maker	coffee table	column	computer tower	copier	couch	counter	cup	curtain	cushion	decoration	desk	dining table	dish rack	dishwasher	door	doorframe	dresser	dumbbell	end table	fan	file cabinet	fire alarm	fire extinguisher	floor	folded chair	hat	headphones	ironing board	jacket	keyboard	keyboard piano	kitchen cabinet	kitchen counter	ladder	lamp	laptop	laundry basket	laundry detergent	laundry hamper	ledge	light	light switch	machine	mailbox	mat	microwave	mini fridge	mirror	monitor	mouse	music stand	nightstand	object	office chair	oven	paper	paper bag	paper cutter	paper towel dispenser	paper towel roll	person	piano	picture	pillow	pipe	plant	plate	plunger	poster	power outlet	power strip	printer	projector	projector screen	rack	radiator	range hood	recycling bin	refrigerator	scale	seat	shelf	shoe	shower	shower curtain	shower curtain rod	shower floor	shower head	shower wall	sign	sink	soap dispenser	sofa chair	speaker	stair rail	stairs	stand	stool	storage bin	storage container	storage organizer	stove	structure	stuffed animal	suitcase	table	telephone	tissue box	toaster	toilet	toilet paper	toilet paper dispenser	towel	trash bin	trash can	tray	tube	tv	tv stand	vacuum cleaner	vent	wall	wardrobe	washing machine	water bottle	water cooler	water pitcher	whiteboard	window	windowsill

PTv3 ScanNet200	0.393 1	0.592 1	0.330 1	0.216 1	0.520 1	0.109 2	0.108 10	0.000 1	0.337 1	0.000 1	0.310 9	0.394 6	0.494 8	0.753 7	0.848 1	0.256 2	0.717 2	0.000 3	0.842 1	0.192 2	0.065 2	0.449 5	0.346 1	0.546 3	0.190 7	0.000 5	0.384 4	0.000 1	0.000 3	0.218 1	0.505 1	0.791 1	0.000 1	0.136 1	0.000 2	0.903 1	0.073 9	0.687 3	0.000 4	0.168 1	0.551 2	0.387 5	0.941 1	0.000 1	0.000 2	0.397 7	0.654 3	0.000 7	0.714 3	0.759 9	0.752 4	0.118 4	0.264 2	0.926 1	0.000 1	0.048 2	0.575 2	0.000 7	0.597 1	0.366 1	0.755 1	0.469 1	0.474 1	0.798 1	0.140 6	0.617 1	0.692 3	0.000 4	0.592 2	0.971 1	0.188 2	0.000 1	0.133 4	0.593 1	0.349 1	0.650 1	0.717 4	0.699 1	0.455 1	0.790 1	0.523 3	0.636 1	0.301 1	0.000 1	0.622 2	0.000 6	0.017 9	0.259 1	0.000 3	0.921 2	0.337 1	0.733 1	0.210 1	0.514 1	0.860 6	0.407 1	0.000 1	0.688 1	0.109 6	0.000 9	0.000 4	0.000 1	0.151 1	0.671 4	0.782 1	0.115 7	0.641 1	0.903 1	0.349 1	0.616 1	0.088 4	0.832 2	0.000 3	0.480 1	0.000 1	0.428 1	0.000 2	0.497 6	0.000 1	0.000 5	0.000 1	0.662 2	0.690 1	0.612 1	0.828 1	0.575 1	0.000 1	0.404 4	0.644 1	0.325 3	0.887 2	0.728 1	0.009 10	0.134 5	0.026 11	0.000 1	0.761 1	0.731 1	0.172 3	0.077 2	0.528 2	0.727 2	0.000 1	0.603 4	0.220 2	0.022 2	0.000 1	0.740 1	0.000 2	0.000 1	0.661 1	0.586 1	0.566 1	0.436 4	0.531 1	0.978 1	0.457 1	0.708 1	0.583 3	0.141 7	0.748 1	0.000 1	0.026 1	0.822 1	0.871 3	0.879 5	0.000 1	0.851 1	0.405 2	0.914 1	0.000 1	0.682 2	0.000 9	0.281 1	0.738 1	0.463 4
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024
L3DETR-ScanNet_200	0.336 4	0.533 7	0.279 2	0.155 4	0.508 3	0.073 7	0.101 11	0.000 1	0.058 2	0.000 1	0.294 10	0.233 10	0.548 2	0.927 1	0.788 5	0.264 1	0.463 5	0.000 3	0.638 7	0.098 9	0.014 4	0.411 7	0.226 7	0.525 7	0.225 6	0.010 3	0.397 3	0.000 1	0.000 3	0.192 3	0.380 8	0.598 3	0.000 1	0.117 2	0.000 2	0.883 3	0.082 6	0.689 2	0.000 4	0.032 11	0.549 3	0.417 3	0.910 3	0.000 1	0.000 2	0.448 5	0.613 6	0.000 7	0.697 5	0.960 1	0.759 2	0.158 2	0.293 1	0.883 3	0.000 1	0.312 1	0.583 1	0.079 4	0.422 8	0.068 11	0.660 4	0.418 4	0.298 6	0.430 8	0.114 7	0.526 3	0.776 1	0.051 2	0.679 1	0.946 3	0.152 5	0.000 1	0.183 3	0.000 9	0.211 4	0.511 6	0.409 10	0.565 6	0.355 5	0.448 4	0.512 4	0.557 2	0.000 3	0.000 1	0.420 5	0.000 6	0.007 11	0.104 2	0.000 3	0.125 11	0.330 2	0.514 9	0.146 7	0.321 7	0.860 6	0.174 5	0.000 1	0.629 3	0.075 10	0.000 9	0.000 4	0.000 1	0.002 4	0.671 4	0.712 3	0.141 3	0.339 6	0.856 3	0.261 6	0.529 6	0.067 7	0.835 1	0.000 3	0.369 8	0.000 1	0.259 2	0.000 2	0.629 3	0.000 1	0.487 1	0.000 1	0.579 7	0.646 2	0.107 11	0.720 8	0.122 4	0.000 1	0.333 8	0.505 6	0.303 5	0.908 1	0.503 9	0.565 1	0.074 6	0.324 1	0.000 1	0.740 4	0.661 5	0.109 8	0.000 7	0.427 7	0.563 11	0.000 1	0.579 7	0.108 5	0.000 5	0.000 1	0.664 3	0.000 2	0.000 1	0.641 4	0.539 6	0.416 3	0.515 2	0.256 5	0.940 7	0.312 3	0.209 11	0.620 1	0.138 9	0.636 7	0.000 1	0.000 8	0.775 8	0.861 4	0.765 7	0.000 1	0.801 6	0.119 9	0.860 6	0.000 1	0.687 1	0.001 8	0.192 10	0.679 6	0.699 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, Jian Zhang: Language-Assisted 3D Scene Understanding. arXiv23.12
CeCo	0.340 3	0.551 5	0.247 7	0.181 2	0.475 7	0.057 11	0.142 8	0.000 1	0.000 3	0.000 1	0.387 3	0.463 3	0.499 6	0.924 2	0.774 6	0.213 4	0.257 7	0.000 3	0.546 10	0.100 7	0.006 5	0.615 1	0.177 11	0.534 4	0.246 3	0.000 5	0.400 2	0.000 1	0.338 1	0.006 10	0.484 3	0.609 2	0.000 1	0.083 7	0.000 2	0.873 6	0.089 4	0.661 8	0.000 4	0.048 10	0.560 1	0.408 4	0.892 5	0.000 1	0.000 2	0.586 1	0.616 5	0.000 7	0.692 6	0.900 2	0.721 6	0.162 1	0.228 3	0.860 5	0.000 1	0.000 7	0.575 2	0.083 3	0.550 3	0.347 2	0.624 7	0.410 7	0.360 3	0.740 2	0.109 8	0.321 9	0.660 4	0.000 4	0.121 4	0.939 7	0.143 6	0.000 1	0.400 1	0.003 7	0.190 6	0.564 2	0.652 6	0.615 5	0.421 2	0.304 9	0.579 1	0.547 3	0.000 3	0.000 1	0.296 8	0.000 6	0.030 5	0.096 3	0.000 3	0.916 3	0.037 7	0.551 6	0.171 4	0.376 4	0.865 5	0.286 2	0.000 1	0.633 2	0.102 9	0.027 5	0.011 3	0.000 1	0.000 5	0.474 8	0.742 2	0.133 4	0.311 7	0.824 6	0.242 7	0.503 8	0.068 6	0.828 3	0.000 3	0.429 3	0.000 1	0.063 3	0.000 2	0.781 1	0.000 1	0.000 5	0.000 1	0.665 1	0.633 4	0.450 3	0.818 2	0.000 6	0.000 1	0.429 2	0.532 4	0.226 7	0.825 5	0.510 7	0.377 3	0.709 1	0.079 8	0.000 1	0.753 2	0.683 2	0.102 10	0.063 3	0.401 10	0.620 8	0.000 1	0.619 2	0.000 10	0.000 5	0.000 1	0.595 9	0.000 2	0.000 1	0.345 8	0.564 3	0.411 4	0.603 1	0.384 3	0.945 4	0.266 6	0.643 3	0.367 8	0.304 1	0.663 6	0.000 1	0.010 3	0.726 9	0.767 6	0.898 3	0.000 1	0.784 7	0.435 1	0.861 5	0.000 1	0.447 6	0.000 9	0.257 4	0.656 7	0.377 7
Zhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia: Understanding Imbalanced Semantic Segmentation Through Neural Collapse. CVPR 2023
PonderV2 ScanNet200	0.346 2	0.552 4	0.270 4	0.175 3	0.497 5	0.070 8	0.239 4	0.000 1	0.000 3	0.000 1	0.232 11	0.412 5	0.584 1	0.842 3	0.804 3	0.212 5	0.540 4	0.000 3	0.433 11	0.106 6	0.000 6	0.590 3	0.290 6	0.548 2	0.243 4	0.000 5	0.356 7	0.000 1	0.000 3	0.062 7	0.398 7	0.441 5	0.000 1	0.104 6	0.000 2	0.888 2	0.076 8	0.682 4	0.030 1	0.094 4	0.491 6	0.351 7	0.869 7	0.000 1	0.063 1	0.403 6	0.700 2	0.000 7	0.660 9	0.881 3	0.761 1	0.050 6	0.186 5	0.852 7	0.000 1	0.007 5	0.570 5	0.100 2	0.565 2	0.326 3	0.641 6	0.431 3	0.290 8	0.621 3	0.259 2	0.408 5	0.622 6	0.125 1	0.082 7	0.950 2	0.179 3	0.000 1	0.263 2	0.424 2	0.193 5	0.558 3	0.880 1	0.545 7	0.375 4	0.727 2	0.445 6	0.499 6	0.000 3	0.000 1	0.475 4	0.002 4	0.034 4	0.083 4	0.000 3	0.924 1	0.290 3	0.636 3	0.115 8	0.400 3	0.874 3	0.186 4	0.000 1	0.611 5	0.128 2	0.113 2	0.000 4	0.000 1	0.000 5	0.584 6	0.636 5	0.103 8	0.385 5	0.843 4	0.283 2	0.603 3	0.080 5	0.825 4	0.000 3	0.377 6	0.000 1	0.000 4	0.000 2	0.457 7	0.000 1	0.000 5	0.000 1	0.574 8	0.608 6	0.481 2	0.792 3	0.394 2	0.000 1	0.357 6	0.503 7	0.261 6	0.817 7	0.504 8	0.304 4	0.472 3	0.115 5	0.000 1	0.750 3	0.677 3	0.202 1	0.000 7	0.509 3	0.729 1	0.000 1	0.519 8	0.000 10	0.000 5	0.000 1	0.620 8	0.000 2	0.000 1	0.660 3	0.560 4	0.486 2	0.384 6	0.346 4	0.952 2	0.247 8	0.667 2	0.436 6	0.269 3	0.691 3	0.000 1	0.010 3	0.787 5	0.889 2	0.880 4	0.000 1	0.810 4	0.336 3	0.860 6	0.000 1	0.606 4	0.009 5	0.248 5	0.681 4	0.392 6
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
OA-CNN-L_ScanNet200	0.333 5	0.558 2	0.269 5	0.124 7	0.448 9	0.080 5	0.272 3	0.000 1	0.000 3	0.000 1	0.342 5	0.515 2	0.524 4	0.713 11	0.789 4	0.158 7	0.384 6	0.000 3	0.806 3	0.125 3	0.000 6	0.496 4	0.332 3	0.498 10	0.227 5	0.024 2	0.474 1	0.000 1	0.003 2	0.071 6	0.487 2	0.000 6	0.000 1	0.110 4	0.000 2	0.876 4	0.013 11	0.703 1	0.000 4	0.076 6	0.473 7	0.355 6	0.906 4	0.000 1	0.000 2	0.476 4	0.706 1	0.000 7	0.672 8	0.835 7	0.748 5	0.015 10	0.223 4	0.860 5	0.000 1	0.000 7	0.572 4	0.000 7	0.509 5	0.313 4	0.662 2	0.398 8	0.396 2	0.411 9	0.276 1	0.527 2	0.711 2	0.000 4	0.076 8	0.946 3	0.166 4	0.000 1	0.022 5	0.160 3	0.183 7	0.493 7	0.699 5	0.637 3	0.403 3	0.330 8	0.406 7	0.526 4	0.024 2	0.000 1	0.392 7	0.000 6	0.016 10	0.000 6	0.196 2	0.915 4	0.112 6	0.557 5	0.197 2	0.352 6	0.877 2	0.000 6	0.000 1	0.592 9	0.103 8	0.000 9	0.067 1	0.000 1	0.089 2	0.735 3	0.625 6	0.130 6	0.568 3	0.836 5	0.271 3	0.534 5	0.043 9	0.799 5	0.001 2	0.445 2	0.000 1	0.000 4	0.024 1	0.661 2	0.000 1	0.262 2	0.000 1	0.591 4	0.517 10	0.373 5	0.788 5	0.021 5	0.000 1	0.455 1	0.517 5	0.320 4	0.823 6	0.200 11	0.001 11	0.150 4	0.100 6	0.000 1	0.736 5	0.668 4	0.103 9	0.052 4	0.662 1	0.720 3	0.000 1	0.602 5	0.112 4	0.002 4	0.000 1	0.637 6	0.000 2	0.000 1	0.621 6	0.569 2	0.398 5	0.412 5	0.234 6	0.949 3	0.363 2	0.492 9	0.495 5	0.251 4	0.665 5	0.000 1	0.001 7	0.805 3	0.833 5	0.794 6	0.000 1	0.821 2	0.314 4	0.843 8	0.000 1	0.560 5	0.245 2	0.262 3	0.713 2	0.370 8

PPT-SpUNet-F.T.	0.332 6	0.556 3	0.270 3	0.123 8	0.519 2	0.091 3	0.349 2	0.000 1	0.000 3	0.000 1	0.339 6	0.383 7	0.498 7	0.833 4	0.807 2	0.241 3	0.584 3	0.000 3	0.755 4	0.124 4	0.000 6	0.608 2	0.330 4	0.530 6	0.314 1	0.000 5	0.374 5	0.000 1	0.000 3	0.197 2	0.459 4	0.000 6	0.000 1	0.117 2	0.000 2	0.876 4	0.095 1	0.682 4	0.000 4	0.086 5	0.518 4	0.433 1	0.930 2	0.000 1	0.000 2	0.563 3	0.542 8	0.077 4	0.715 2	0.858 5	0.756 3	0.008 11	0.171 7	0.874 4	0.000 1	0.039 3	0.550 6	0.000 7	0.545 4	0.256 5	0.657 5	0.453 2	0.351 4	0.449 7	0.213 3	0.392 6	0.611 7	0.000 4	0.037 9	0.946 3	0.138 8	0.000 1	0.000 7	0.063 5	0.308 2	0.537 4	0.796 2	0.673 2	0.323 8	0.392 6	0.400 8	0.509 5	0.000 3	0.000 1	0.649 1	0.000 6	0.023 6	0.000 6	0.000 3	0.914 5	0.002 10	0.506 10	0.163 6	0.359 5	0.872 4	0.000 6	0.000 1	0.623 4	0.112 4	0.001 8	0.000 4	0.000 1	0.021 3	0.753 1	0.565 10	0.150 1	0.579 2	0.806 7	0.267 4	0.616 1	0.042 10	0.783 7	0.000 3	0.374 7	0.000 1	0.000 4	0.000 2	0.620 5	0.000 1	0.000 5	0.000 1	0.572 9	0.634 3	0.350 6	0.792 3	0.000 6	0.000 1	0.376 5	0.535 3	0.378 2	0.855 3	0.672 2	0.074 7	0.000 7	0.185 4	0.000 1	0.727 6	0.660 6	0.076 11	0.000 7	0.432 6	0.646 5	0.000 1	0.594 6	0.006 9	0.000 5	0.000 1	0.658 4	0.000 2	0.000 1	0.661 1	0.549 5	0.300 8	0.291 8	0.045 8	0.942 6	0.304 4	0.600 5	0.572 4	0.135 10	0.695 2	0.000 1	0.008 5	0.793 4	0.942 1	0.899 2	0.000 1	0.816 3	0.181 6	0.897 2	0.000 1	0.679 3	0.223 3	0.264 2	0.691 3	0.345 9
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer ScanNet200	0.326 7	0.539 6	0.265 6	0.131 6	0.499 4	0.110 1	0.522 1	0.000 1	0.000 3	0.000 1	0.318 8	0.427 4	0.455 9	0.743 9	0.765 7	0.175 6	0.842 1	0.000 3	0.828 2	0.204 1	0.033 3	0.429 6	0.335 2	0.601 1	0.312 2	0.000 5	0.357 6	0.000 1	0.000 3	0.047 8	0.423 5	0.000 6	0.000 1	0.105 5	0.000 2	0.873 6	0.079 7	0.670 7	0.000 4	0.117 2	0.471 8	0.432 2	0.829 8	0.000 1	0.000 2	0.584 2	0.417 11	0.089 3	0.684 7	0.837 6	0.705 10	0.021 9	0.178 6	0.892 2	0.000 1	0.028 4	0.505 8	0.000 7	0.457 6	0.200 8	0.662 2	0.412 6	0.244 9	0.496 5	0.000 11	0.451 4	0.626 5	0.000 4	0.102 6	0.943 6	0.138 8	0.000 1	0.000 7	0.149 4	0.291 3	0.534 5	0.722 3	0.632 4	0.331 7	0.253 10	0.453 5	0.487 7	0.000 3	0.000 1	0.479 3	0.000 6	0.022 7	0.000 6	0.000 3	0.900 6	0.128 5	0.684 2	0.164 5	0.413 2	0.854 8	0.000 6	0.000 1	0.512 11	0.074 11	0.003 7	0.000 4	0.000 1	0.000 5	0.469 9	0.613 7	0.132 5	0.529 4	0.871 2	0.227 10	0.582 4	0.026 11	0.787 6	0.000 3	0.339 9	0.000 1	0.000 4	0.000 2	0.626 4	0.000 1	0.029 4	0.000 1	0.587 5	0.612 5	0.411 4	0.724 7	0.000 6	0.000 1	0.407 3	0.552 2	0.513 1	0.849 4	0.655 3	0.408 2	0.000 7	0.296 2	0.000 1	0.686 9	0.645 8	0.145 5	0.022 5	0.414 8	0.633 6	0.000 1	0.637 1	0.224 1	0.000 5	0.000 1	0.650 5	0.000 2	0.000 1	0.622 5	0.535 7	0.343 6	0.483 3	0.230 7	0.943 5	0.289 5	0.618 4	0.596 2	0.140 8	0.679 4	0.000 1	0.022 2	0.783 6	0.620 9	0.906 1	0.000 1	0.806 5	0.137 8	0.865 3	0.000 1	0.378 7	0.000 9	0.168 11	0.680 5	0.227 10
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
AWCS	0.305 8	0.508 8	0.225 8	0.142 5	0.463 8	0.063 9	0.195 6	0.000 1	0.000 3	0.000 1	0.467 2	0.551 1	0.504 5	0.773 5	0.764 8	0.142 8	0.029 11	0.000 3	0.626 8	0.100 7	0.000 6	0.360 8	0.179 9	0.507 9	0.137 9	0.006 4	0.300 8	0.000 1	0.000 3	0.172 5	0.364 9	0.512 4	0.000 1	0.056 8	0.000 2	0.865 8	0.093 3	0.634 11	0.000 4	0.071 8	0.396 9	0.296 10	0.876 6	0.000 1	0.000 2	0.373 8	0.436 10	0.063 6	0.749 1	0.877 4	0.721 6	0.131 3	0.124 8	0.804 9	0.000 1	0.000 7	0.515 7	0.010 6	0.452 7	0.252 6	0.578 8	0.417 5	0.179 11	0.484 6	0.171 4	0.337 8	0.606 8	0.000 4	0.115 5	0.937 8	0.142 7	0.000 1	0.008 6	0.000 9	0.157 10	0.484 8	0.402 11	0.501 9	0.339 6	0.553 3	0.529 2	0.478 8	0.000 3	0.000 1	0.404 6	0.001 5	0.022 7	0.077 5	0.000 3	0.894 8	0.219 4	0.628 4	0.093 9	0.305 8	0.886 1	0.233 3	0.000 1	0.603 6	0.112 4	0.023 6	0.000 4	0.000 1	0.000 5	0.741 2	0.664 4	0.097 9	0.253 8	0.782 8	0.264 5	0.523 7	0.154 1	0.707 10	0.000 3	0.411 4	0.000 1	0.000 4	0.000 2	0.332 10	0.000 1	0.000 5	0.000 1	0.602 3	0.595 7	0.185 9	0.656 10	0.159 3	0.000 1	0.355 7	0.424 9	0.154 9	0.729 9	0.516 6	0.220 6	0.620 2	0.084 7	0.000 1	0.707 8	0.651 7	0.173 2	0.014 6	0.381 11	0.582 9	0.000 1	0.619 2	0.049 8	0.000 5	0.000 1	0.702 2	0.000 2	0.000 1	0.302 10	0.489 9	0.317 7	0.334 7	0.392 2	0.922 8	0.254 7	0.533 8	0.394 7	0.129 11	0.613 9	0.000 1	0.000 8	0.820 2	0.649 8	0.749 8	0.000 1	0.782 8	0.282 5	0.863 4	0.000 1	0.288 10	0.006 6	0.220 7	0.633 8	0.542 2

LGround	0.272 9	0.485 9	0.184 9	0.106 9	0.476 6	0.077 6	0.218 5	0.000 1	0.000 3	0.000 1	0.547 1	0.295 8	0.540 3	0.746 8	0.745 9	0.058 10	0.112 10	0.005 1	0.658 6	0.077 11	0.000 6	0.322 9	0.178 10	0.512 8	0.190 7	0.199 1	0.277 9	0.000 1	0.000 3	0.173 4	0.399 6	0.000 6	0.000 1	0.039 10	0.000 2	0.858 9	0.085 5	0.676 6	0.002 2	0.103 3	0.498 5	0.323 8	0.703 9	0.000 1	0.000 2	0.296 9	0.549 7	0.216 1	0.702 4	0.768 8	0.718 8	0.028 7	0.092 10	0.786 10	0.000 1	0.000 7	0.453 10	0.022 5	0.251 11	0.252 6	0.572 9	0.348 9	0.321 5	0.514 4	0.063 9	0.279 10	0.552 9	0.000 4	0.019 10	0.932 9	0.132 10	0.000 1	0.000 7	0.000 9	0.156 11	0.457 9	0.623 7	0.518 8	0.265 10	0.358 7	0.381 9	0.395 9	0.000 3	0.000 1	0.127 11	0.012 3	0.051 1	0.000 6	0.000 3	0.886 9	0.014 8	0.437 11	0.179 3	0.244 9	0.826 9	0.000 6	0.000 1	0.599 7	0.136 1	0.085 3	0.000 4	0.000 1	0.000 5	0.565 7	0.612 8	0.143 2	0.207 9	0.566 9	0.232 9	0.446 9	0.127 2	0.708 9	0.000 3	0.384 5	0.000 1	0.000 4	0.000 2	0.402 8	0.000 1	0.059 3	0.000 1	0.525 11	0.566 8	0.229 8	0.659 9	0.000 6	0.000 1	0.265 9	0.446 8	0.147 10	0.720 11	0.597 5	0.066 8	0.000 7	0.187 3	0.000 1	0.726 7	0.467 11	0.134 7	0.000 7	0.413 9	0.629 7	0.000 1	0.363 10	0.055 7	0.022 2	0.000 1	0.626 7	0.000 2	0.000 1	0.323 9	0.479 11	0.154 10	0.117 9	0.028 10	0.901 9	0.243 9	0.415 10	0.295 11	0.143 6	0.610 10	0.000 1	0.000 8	0.777 7	0.397 11	0.324 10	0.000 1	0.778 9	0.179 7	0.702 10	0.000 1	0.274 11	0.404 1	0.233 6	0.622 9	0.398 5
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild. arXiv
CSC-Pretrain	0.249 11	0.455 11	0.171 10	0.079 11	0.418 10	0.059 10	0.186 7	0.000 1	0.000 3	0.000 1	0.335 7	0.250 9	0.316 10	0.766 6	0.697 11	0.142 8	0.170 8	0.003 2	0.553 9	0.112 5	0.097 1	0.201 11	0.186 8	0.476 11	0.081 10	0.000 5	0.216 11	0.000 1	0.000 3	0.001 11	0.314 11	0.000 6	0.000 1	0.055 9	0.000 2	0.832 11	0.094 2	0.659 9	0.002 2	0.076 6	0.310 11	0.293 11	0.664 11	0.000 1	0.000 2	0.175 11	0.634 4	0.130 2	0.552 11	0.686 11	0.700 11	0.076 5	0.110 9	0.770 11	0.000 1	0.000 7	0.430 11	0.000 7	0.319 9	0.166 9	0.542 11	0.327 10	0.205 10	0.332 10	0.052 10	0.375 7	0.444 11	0.000 4	0.012 11	0.930 11	0.203 1	0.000 1	0.000 7	0.046 6	0.175 8	0.413 10	0.592 8	0.471 10	0.299 9	0.152 11	0.340 10	0.247 11	0.000 3	0.000 1	0.225 9	0.058 2	0.037 2	0.000 6	0.207 1	0.862 10	0.014 8	0.548 7	0.033 10	0.233 10	0.816 10	0.000 6	0.000 1	0.542 10	0.123 3	0.121 1	0.019 2	0.000 1	0.000 5	0.463 10	0.454 11	0.045 11	0.128 11	0.557 10	0.235 8	0.441 10	0.063 8	0.484 11	0.000 3	0.308 11	0.000 1	0.000 4	0.000 2	0.318 11	0.000 1	0.000 5	0.000 1	0.545 10	0.543 9	0.164 10	0.734 6	0.000 6	0.000 1	0.215 11	0.371 10	0.198 8	0.743 8	0.205 10	0.062 9	0.000 7	0.079 8	0.000 1	0.683 10	0.547 10	0.142 6	0.000 7	0.441 5	0.579 10	0.000 1	0.464 9	0.098 6	0.041 1	0.000 1	0.590 10	0.000 2	0.000 1	0.373 7	0.494 8	0.174 9	0.105 10	0.001 11	0.895 10	0.222 10	0.537 7	0.307 10	0.180 5	0.625 8	0.000 1	0.000 8	0.591 11	0.609 10	0.398 9	0.000 1	0.766 11	0.014 11	0.638 11	0.000 1	0.377 8	0.004 7	0.206 9	0.609 11	0.465 3
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
Minkowski 34D	0.253 10	0.463 10	0.154 11	0.102 10	0.381 11	0.084 4	0.134 9	0.000 1	0.000 3	0.000 1	0.386 4	0.141 11	0.279 11	0.737 10	0.703 10	0.014 11	0.164 9	0.000 3	0.663 5	0.092 10	0.000 6	0.224 10	0.291 5	0.531 5	0.056 11	0.000 5	0.242 10	0.000 1	0.000 3	0.013 9	0.331 10	0.000 6	0.000 1	0.035 11	0.001 1	0.858 9	0.059 10	0.650 10	0.000 4	0.056 9	0.353 10	0.299 9	0.670 10	0.000 1	0.000 2	0.284 10	0.484 9	0.071 5	0.594 10	0.720 10	0.710 9	0.027 8	0.068 11	0.813 8	0.000 1	0.005 6	0.492 9	0.164 1	0.274 10	0.111 10	0.571 10	0.307 11	0.293 7	0.307 11	0.150 5	0.163 11	0.531 10	0.002 3	0.545 3	0.932 9	0.093 11	0.000 1	0.000 7	0.002 8	0.159 9	0.368 11	0.581 9	0.440 11	0.228 11	0.406 5	0.282 11	0.294 10	0.000 3	0.000 1	0.189 10	0.060 1	0.036 3	0.000 6	0.000 3	0.897 7	0.000 11	0.525 8	0.025 11	0.205 11	0.771 11	0.000 6	0.000 1	0.593 8	0.108 7	0.044 4	0.000 4	0.000 1	0.000 5	0.282 11	0.589 9	0.094 10	0.169 10	0.466 11	0.227 10	0.419 11	0.125 3	0.757 8	0.002 1	0.334 10	0.000 1	0.000 4	0.000 2	0.357 9	0.000 1	0.000 5	0.000 1	0.582 6	0.513 11	0.337 7	0.612 11	0.000 6	0.000 1	0.250 10	0.352 11	0.136 11	0.724 10	0.655 3	0.280 5	0.000 7	0.046 10	0.000 1	0.606 11	0.559 9	0.159 4	0.102 1	0.445 4	0.655 4	0.000 1	0.310 11	0.117 3	0.000 5	0.000 1	0.581 11	0.026 1	0.000 1	0.265 11	0.483 10	0.084 11	0.097 11	0.044 9	0.865 11	0.142 11	0.588 6	0.351 9	0.272 2	0.596 11	0.000 1	0.003 6	0.622 10	0.720 7	0.096 11	0.000 1	0.771 10	0.016 10	0.772 9	0.000 1	0.302 9	0.194 4	0.214 8	0.621 10	0.197 11
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019

This table lists the benchmark results for the ScanNet200 3D semantic instance scenario.

Method	avg	alarm clock	armchair	backpack	bar	basket	bathroom cabinet	bathroom counter	bathroom stall	bathroom stall door	bathtub	bed	bench	bicycle	bin	blackboard	blanket	blinds	board	book	bookshelf	bottle	bowl	box	broom	bucket	bulletin board	cabinet	calendar	candle	cart	case of water bottles	cd case	ceiling	ceiling light	clock	closet	closet door	closet rod	closet wall	clothes dryer	coffee kettle	coffee maker	coffee table	column	computer tower	container	copier	couch	crate	cup	curtain	decoration	desk	dining table	dish rack	dishwasher	divider	door	doorframe	dumbbell	dustpan	end table	fan	fire alarm	fire extinguisher	fireplace	folded chair	furniture	guitar case	jacket	keyboard	keyboard piano	kitchen cabinet	kitchen counter	ladder	lamp	laptop	laundry basket	laundry detergent	laundry hamper	ledge	light	light switch	luggage	machine	mailbox	mattress	microwave	mini fridge	monitor	mouse	music stand	nightstand	object	office chair	ottoman	oven	paper	paper cutter	paper towel dispenser	paper towel roll	person	piano	picture	pillar	pillow	pipe	plate	plunger	poster	potted plant	power outlet	power strip	projector	projector screen	purse	rack	radiator	range hood	recycling bin	scale	seat	shelf	shoe	shower	shower curtain	shower curtain rod	shower door	shower floor	shower head	sign	sink	soap dish	soap dispenser	sofa chair	stair rail	stairs	stand	stool	storage bin	storage container	storage organizer	stove	structure	stuffed animal	suitcase	table	telephone	tissue box	toaster	toaster oven	toilet	toilet paper	toilet paper holder	toilet seat cover dispenser	towel	tray	tube	tv	tv stand	vacuum cleaner	vent	wardrobe	washing machine	water bottle	water cooler	water pitcher	whiteboard	window	windowsill

Mask3D Scannet200	0.388 1	0.542 1	0.357 1	0.237 1	0.610 1	0.091 1	0.125 5	0.000 1	0.000 1	0.000 1	0.065 3	0.668 1	0.451 1	1.000 1	0.955 1	0.640 1	0.500 1	0.039 1	0.125 2	0.063 2	0.409 1	0.311 2	0.291 1	0.609 3	0.266 1	0.000 1	0.163 1	0.000 1	0.008 1	0.044 2	0.496 1	1.000 1	0.000 1	0.018 2	0.000 1	0.756 1	0.573 1	0.808 2	0.000 1	0.010 1	0.042 3	0.130 3	0.552 1	0.042 1	0.000 1	1.000 1	0.725 4	0.750 1	0.883 1	1.000 1	0.832 4	0.024 2	0.107 1	0.614 3	0.226 1	0.250 1	0.628 2	0.792 1	0.677 2	0.400 1	0.741 1	0.278 1	0.511 1	0.077 5	0.111 1	0.313 2	0.715 2	0.302 1	0.017 3	0.200 2	0.000 1	0.188 1	0.000 1	0.178 2	0.736 1	1.000 1	0.615 1	0.514 1	0.409 2	0.380 5	0.600 1	0.000 1	0.000 1	0.400 1	0.013 2	0.254 1	0.381 1	0.000 1	0.123 4	0.400 1	0.839 1	0.258 1	0.463 1	0.926 1	0.265 1	0.000 1	0.857 2	0.099 1	0.021 2	0.500 1	0.027 1	0.028 1	1.000 1	0.502 5	0.016 1	0.076 4	0.500 1	0.612 1	0.578 1	0.005 2	0.597 2	0.194 1	0.497 1	0.000 1	0.500 1	0.000 2	0.323 4	0.000 1	1.000 1	0.000 1	0.748 1	0.708 2	0.050 4	0.890 2	1.000 1	0.008 2	0.151 3	0.301 1	1.000 1	1.000 1	0.792 3	0.945 1	1.000 1	0.511 1	0.004 2	0.753 1	0.776 2	0.287 2	0.020 2	0.003 4	0.974 3	0.033 1	0.412 5	0.000 1	0.000 2	0.000 2	0.667 1	0.000 1	0.000 1	0.491 1	0.676 2	0.352 1	0.335 1	0.060 2	0.822 5	0.527 2	1.000 1	0.517 1	0.606 1	0.853 1	0.000 1	0.004 1	0.806 1	1.000 1	0.727 1	0.000 1	0.042 2	0.739 2	0.000 1	0.399 3	0.391 1	0.504 1	0.591 1	0.571 1
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
TD3D Scannet200	0.320 2	0.501 2	0.264 2	0.164 2	0.506 3	0.062 2	0.500 1	0.000 1	0.000 1	0.000 1	0.208 1	0.431 2	0.252 3	1.000 1	0.733 3	0.587 2	0.000 2	0.008 2	0.000 3	0.106 1	0.000 2	0.356 1	0.123 4	0.686 1	0.101 2	0.000 1	0.152 2	0.000 1	0.000 2	0.226 1	0.280 3	0.000 2	0.000 1	0.250 1	0.000 1	0.619 2	0.061 3	0.841 1	0.000 1	0.000 2	0.167 1	0.194 1	0.333 2	0.000 2	0.000 1	0.667 2	0.820 1	0.250 3	0.790 4	1.000 1	0.879 2	0.077 1	0.094 3	0.708 1	0.217 2	0.049 2	0.634 1	0.792 1	0.331 4	0.033 5	0.716 2	0.159 2	0.396 2	0.331 4	0.099 2	0.415 1	0.842 1	0.000 2	0.458 1	0.542 1	0.000 1	0.101 2	0.000 1	0.218 1	0.513 2	0.500 2	0.458 2	0.104 2	0.516 1	0.456 1	0.268 4	0.000 1	0.000 1	0.400 1	0.022 1	0.233 2	0.143 2	0.000 1	0.677 1	0.400 1	0.504 5	0.095 3	0.083 5	0.890 2	0.061 2	0.000 1	0.906 1	0.076 2	0.231 1	0.125 2	0.000 2	0.003 2	0.792 3	0.881 1	0.000 2	0.098 3	0.125 4	0.498 5	0.459 2	0.063 1	0.715 1	0.000 2	0.241 4	0.000 1	0.396 2	0.063 1	0.605 1	0.000 1	0.000 2	0.000 1	0.448 5	0.629 3	0.202 2	0.967 1	0.250 2	0.038 1	0.192 1	0.185 2	0.083 4	1.000 1	1.000 1	0.857 2	0.000 2	0.470 2	0.012 1	0.565 3	0.798 1	0.621 1	0.111 1	0.500 1	1.000 1	0.017 2	0.509 1	0.000 1	0.008 1	1.000 1	0.525 2	0.000 1	0.000 1	0.332 3	0.679 1	0.264 2	0.333 2	0.267 1	1.000 1	0.549 1	0.299 5	0.387 2	0.328 3	0.744 4	0.000 1	0.000 2	0.435 5	1.000 1	0.283 4	0.000 1	0.196 1	0.817 1	0.000 1	0.472 1	0.222 3	0.123 4	0.560 2	0.156 2
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
Minkowski 34D Inst.	0.203 5	0.369 4	0.134 5	0.078 5	0.479 4	0.003 4	0.500 1	0.000 1	0.000 1	0.000 1	0.100 2	0.371 3	0.300 2	0.667 4	0.746 2	0.400 3	0.000 2	0.000 3	0.000 3	0.031 3	0.000 2	0.074 4	0.165 3	0.413 5	0.000 4	0.000 1	0.070 4	0.000 1	0.000 2	0.000 3	0.221 5	0.000 2	0.000 1	0.000 3	0.000 1	0.372 5	0.070 2	0.706 4	0.000 1	0.000 2	0.000 5	0.123 4	0.033 5	0.000 2	0.000 1	0.422 5	0.732 3	0.000 4	0.778 5	1.000 1	0.845 3	0.000 3	0.090 4	0.636 2	0.000 3	0.000 3	0.158 4	0.000 3	0.250 5	0.050 4	0.693 3	0.123 4	0.051 5	0.385 3	0.009 4	0.118 5	0.406 5	0.000 2	0.000 4	0.200 2	0.000 1	0.000 3	0.000 1	0.133 4	0.307 5	0.500 2	0.251 4	0.000 4	0.281 3	0.402 4	0.317 2	0.000 1	0.000 1	0.000 3	0.000 3	0.060 4	0.000 3	0.000 1	0.396 2	0.200 3	0.669 2	0.021 4	0.218 4	0.720 5	0.000 3	0.000 1	0.696 3	0.025 4	0.000 3	0.000 3	0.000 2	0.000 3	0.125 5	0.596 2	0.000 2	0.191 1	0.500 1	0.595 2	0.369 4	0.000 3	0.500 4	0.000 2	0.143 5	0.000 1	0.000 3	0.000 2	0.226 5	0.000 1	0.000 2	0.000 1	0.701 2	0.511 4	0.000 5	0.851 4	0.000 3	0.000 3	0.150 4	0.052 5	0.100 3	0.981 3	0.500 4	0.286 3	0.000 2	0.000 5	0.000 3	0.545 4	0.522 5	0.250 3	0.000 3	0.000 5	0.522 5	0.000 3	0.500 2	0.000 1	0.000 2	0.000 2	0.282 5	0.000 1	0.000 1	0.178 5	0.382 4	0.018 5	0.056 4	0.000 3	0.997 3	0.107 5	0.677 2	0.313 4	0.000 4	0.726 5	0.000 1	0.000 2	0.583 4	0.903 4	0.200 5	0.000 1	0.000 3	0.333 4	0.000 1	0.442 2	0.083 4	0.109 5	0.387 4	0.000 5
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
CSC-Pretrain Inst.	0.209 4	0.361 5	0.157 4	0.085 4	0.506 2	0.007 3	0.500 1	0.000 1	0.000 1	0.000 1	0.000 5	0.093 5	0.221 4	0.667 4	0.524 5	0.400 3	0.000 2	0.000 3	0.000 3	0.004 4	0.000 2	0.000 5	0.109 5	0.589 4	0.000 4	0.000 1	0.059 5	0.000 1	0.000 2	0.000 3	0.322 2	0.000 2	0.000 1	0.000 3	0.000 1	0.405 3	0.055 4	0.700 5	0.000 1	0.000 2	0.028 4	0.091 5	0.083 3	0.000 2	0.000 1	0.667 2	0.768 2	0.000 4	0.807 3	1.000 1	0.776 5	0.000 3	0.000 5	0.340 5	0.000 3	0.000 3	0.103 5	0.000 3	0.750 1	0.200 3	0.634 5	0.053 5	0.246 3	0.677 2	0.006 5	0.198 3	0.432 4	0.000 2	0.000 4	0.050 4	0.000 1	0.000 3	0.000 1	0.111 5	0.356 4	0.500 2	0.188 5	0.000 4	0.220 4	0.448 2	0.050 5	0.000 1	0.000 1	0.000 3	0.000 3	0.032 5	0.000 3	0.000 1	0.396 2	0.000 4	0.573 4	0.000 5	0.228 3	0.747 4	0.000 3	0.000 1	0.573 5	0.021 5	0.000 3	0.000 3	0.000 2	0.000 3	0.500 4	0.573 3	0.000 2	0.000 5	0.125 4	0.592 3	0.364 5	0.000 3	0.450 5	0.000 2	0.364 2	0.000 1	0.000 3	0.000 2	0.340 3	0.000 1	0.000 2	0.000 1	0.610 3	0.833 1	0.221 1	0.702 5	0.000 3	0.000 3	0.135 5	0.094 4	0.125 2	0.571 4	0.500 4	0.143 5	0.000 2	0.125 3	0.000 3	0.618 2	0.667 4	0.115 5	0.000 3	0.125 2	1.000 1	0.000 3	0.500 2	0.000 1	0.000 2	0.000 2	0.502 4	0.000 1	0.000 1	0.312 4	0.248 5	0.050 4	0.000 5	0.000 3	0.997 3	0.420 3	0.500 4	0.149 5	0.451 2	0.748 2	0.000 1	0.000 2	0.636 3	0.667 5	0.600 2	0.000 1	0.000 3	0.278 5	0.000 1	0.333 4	0.000 5	0.294 2	0.381 5	0.110 3
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
LGround Inst.	0.246 3	0.413 3	0.170 3	0.130 3	0.455 5	0.003 5	0.500 1	0.000 1	0.000 1	0.000 1	0.017 4	0.333 4	0.111 5	1.000 1	0.681 4	0.400 3	0.000 2	0.000 3	1.000 1	0.003 5	0.000 2	0.167 3	0.190 2	0.637 2	0.067 3	0.000 1	0.081 3	0.000 1	0.000 2	0.000 3	0.264 4	0.000 2	0.000 1	0.000 3	0.000 1	0.387 4	0.031 5	0.754 3	0.000 1	0.000 2	0.151 2	0.135 2	0.056 4	0.000 2	0.000 1	0.582 4	0.589 5	0.500 2	0.815 2	1.000 1	0.903 1	0.000 3	0.097 2	0.588 4	0.000 3	0.000 3	0.234 3	0.000 3	0.500 3	0.400 1	0.682 4	0.156 3	0.159 4	0.750 1	0.046 3	0.125 4	0.660 3	0.000 2	0.200 2	0.000 5	0.000 1	0.000 3	0.000 1	0.164 3	0.402 3	0.500 2	0.373 3	0.025 3	0.143 5	0.426 3	0.317 2	0.000 1	0.000 1	0.000 3	0.000 3	0.063 3	0.000 3	0.000 1	0.000 5	0.000 4	0.575 3	0.250 2	0.241 2	0.772 3	0.000 3	0.000 1	0.653 4	0.034 3	0.000 3	0.000 3	0.000 2	0.000 3	1.000 1	0.561 4	0.000 2	0.100 2	0.500 1	0.541 4	0.452 3	0.000 3	0.581 3	0.000 2	0.364 2	0.000 1	0.000 3	0.000 2	0.571 2	0.000 1	0.000 2	0.000 1	0.568 4	0.511 4	0.167 3	0.857 3	0.000 3	0.000 3	0.164 2	0.112 3	0.000 5	0.530 5	1.000 1	0.286 3	0.000 2	0.125 3	0.000 3	0.464 5	0.706 3	0.208 4	0.000 3	0.125 2	0.744 4	0.000 3	0.500 2	0.000 1	0.000 2	0.000 2	0.511 3	0.000 1	0.000 1	0.344 2	0.541 3	0.068 3	0.333 2	0.000 3	1.000 1	0.196 4	0.533 3	0.318 3	0.000 4	0.748 3	0.000 1	0.000 2	0.690 2	1.000 1	0.400 3	0.000 1	0.000 3	0.667 3	0.000 1	0.333 4	0.333 2	0.270 3	0.399 3	0.083 4
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild.

ScanNet Benchmark

This table lists the benchmark results for the 3D semantic label scenario.

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

PTv3 ScanNet	0.794 1	0.941 3	0.813 17	0.851 7	0.782 5	0.890 2	0.597 1	0.916 2	0.696 7	0.713 3	0.979 1	0.635 1	0.384 2	0.793 2	0.907 7	0.821 4	0.790 30	0.696 10	0.967 3	0.903 1	0.805 1
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024
PonderV2	0.785 2	0.978 1	0.800 25	0.833 21	0.788 3	0.853 15	0.545 16	0.910 5	0.713 1	0.705 4	0.979 1	0.596 6	0.390 1	0.769 11	0.832 40	0.821 4	0.792 29	0.730 1	0.975 1	0.897 4	0.785 4
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
Mix3D	0.781 3	0.964 2	0.855 1	0.843 15	0.781 6	0.858 11	0.575 6	0.831 31	0.685 13	0.714 2	0.979 1	0.594 7	0.310 26	0.801 1	0.892 15	0.841 2	0.819 4	0.723 4	0.940 13	0.887 6	0.725 22
Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann: Mix3D: Out-of-Context Data Augmentation for 3D Scenes. 3DV 2021 (Oral)
Swin3D	0.779 4	0.861 20	0.818 13	0.836 18	0.790 2	0.875 4	0.576 5	0.905 6	0.704 4	0.739 1	0.969 10	0.611 2	0.349 10	0.756 20	0.958 1	0.702 43	0.805 14	0.708 7	0.916 31	0.898 3	0.801 2

TTT-KD	0.773 5	0.646 89	0.818 13	0.809 33	0.774 8	0.878 3	0.581 2	0.943 1	0.687 11	0.704 5	0.978 4	0.607 5	0.336 15	0.775 8	0.912 5	0.838 3	0.823 2	0.694 11	0.967 3	0.899 2	0.794 3
Lisa Weijler, Muhammad Jehanzeb Mirza, Leon Sick, Can Ekkazan, Pedro Hermosilla: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models.
ResLFE_HDS	0.772 6	0.939 4	0.824 6	0.854 6	0.771 9	0.840 29	0.564 10	0.900 8	0.686 12	0.677 11	0.961 16	0.537 29	0.348 11	0.769 11	0.903 9	0.785 10	0.815 6	0.676 20	0.939 14	0.880 11	0.772 8

OctFormer	0.766 7	0.925 7	0.808 21	0.849 9	0.786 4	0.846 25	0.566 9	0.876 14	0.690 9	0.674 13	0.960 17	0.576 16	0.226 65	0.753 22	0.904 8	0.777 12	0.815 6	0.722 5	0.923 27	0.877 13	0.776 7
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
PPT-SpUNet-Joint	0.766 7	0.932 5	0.794 31	0.829 23	0.751 21	0.854 13	0.540 20	0.903 7	0.630 32	0.672 14	0.963 14	0.565 20	0.357 8	0.788 3	0.900 11	0.737 25	0.802 15	0.685 15	0.950 7	0.887 6	0.780 5
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OccuSeg+Semantic	0.764 9	0.758 57	0.796 29	0.839 17	0.746 23	0.907 1	0.562 11	0.850 23	0.680 15	0.672 14	0.978 4	0.610 3	0.335 17	0.777 6	0.819 43	0.847 1	0.830 1	0.691 13	0.972 2	0.885 8	0.727 20

CU-Hybrid Net	0.764 9	0.924 8	0.819 11	0.840 16	0.757 16	0.853 15	0.580 3	0.848 24	0.709 3	0.643 22	0.958 20	0.587 11	0.295 32	0.753 22	0.884 19	0.758 19	0.815 6	0.725 3	0.927 24	0.867 20	0.743 14

O-CNN	0.762 11	0.924 8	0.823 7	0.844 14	0.770 10	0.852 17	0.577 4	0.847 26	0.711 2	0.640 26	0.958 20	0.592 8	0.217 71	0.762 16	0.888 16	0.758 19	0.813 10	0.726 2	0.932 22	0.868 19	0.744 13
Peng-Shuai Wang, Yang Liu, Yu-Xiao Guo, Chun-Yu Sun, Xin Tong: O-CNN: Octree-based Convolutional Neural Networks for 3D Shape Analysis. SIGGRAPH 2017
OA-CNN-L_ScanNet20	0.756 12	0.783 43	0.826 5	0.858 4	0.776 7	0.837 32	0.548 15	0.896 11	0.649 24	0.675 12	0.962 15	0.586 12	0.335 17	0.771 10	0.802 47	0.770 15	0.787 32	0.691 13	0.936 17	0.880 11	0.761 10

ConDaFormer	0.755 13	0.927 6	0.822 8	0.836 18	0.801 1	0.849 20	0.516 30	0.864 20	0.651 23	0.680 10	0.958 20	0.584 14	0.282 40	0.759 18	0.855 30	0.728 27	0.802 15	0.678 17	0.880 57	0.873 18	0.756 11
Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Guisong Xia, Dacheng Tao: ConDaFormer : Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding. Neurips, 2023
PNE	0.755 13	0.786 41	0.835 4	0.834 20	0.758 14	0.849 20	0.570 8	0.836 30	0.648 25	0.668 16	0.978 4	0.581 15	0.367 6	0.683 33	0.856 28	0.804 6	0.801 19	0.678 17	0.961 5	0.889 5	0.716 27
P. Hermosilla: Point Neighborhood Embeddings.
PointTransformerV2	0.752 15	0.742 65	0.809 20	0.872 1	0.758 14	0.860 10	0.552 13	0.891 12	0.610 39	0.687 6	0.960 17	0.559 23	0.304 29	0.766 14	0.926 3	0.767 16	0.797 22	0.644 31	0.942 11	0.876 16	0.722 24
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao: Point Transformer V2: Grouped Vector Attention and Partition-based Pooling. NeurIPS 2022
DMF-Net	0.752 15	0.906 12	0.793 33	0.802 39	0.689 38	0.825 44	0.556 12	0.867 16	0.681 14	0.602 42	0.960 17	0.555 25	0.365 7	0.779 5	0.859 25	0.747 22	0.795 26	0.717 6	0.917 30	0.856 28	0.764 9
C.Yang, Y.Yan, W.Zhao, J.Ye, X.Yang, A.Hussain, B.Dong, K.Huang: Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic Segmentation. ICONIP 2023
PointConvFormer	0.749 17	0.793 39	0.790 34	0.807 35	0.750 22	0.856 12	0.524 26	0.881 13	0.588 51	0.642 25	0.977 8	0.591 9	0.274 45	0.781 4	0.929 2	0.804 6	0.796 23	0.642 32	0.947 9	0.885 8	0.715 28
Wenxuan Wu, Qi Shan, Li Fuxin: PointConvFormer: Revenge of the Point-based Convolution.
BPNet	0.749 17	0.909 10	0.818 13	0.811 31	0.752 19	0.839 31	0.485 45	0.842 27	0.673 16	0.644 21	0.957 24	0.528 35	0.305 28	0.773 9	0.859 25	0.788 8	0.818 5	0.693 12	0.916 31	0.856 28	0.723 23
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MSP	0.748 19	0.623 92	0.804 23	0.859 3	0.745 24	0.824 46	0.501 35	0.912 4	0.690 9	0.685 8	0.956 25	0.567 19	0.320 23	0.768 13	0.918 4	0.720 32	0.802 15	0.676 20	0.921 28	0.881 10	0.779 6

StratifiedFormer	0.747 20	0.901 13	0.803 24	0.845 13	0.757 16	0.846 25	0.512 31	0.825 34	0.696 7	0.645 20	0.956 25	0.576 16	0.262 56	0.744 27	0.861 24	0.742 23	0.770 41	0.705 8	0.899 43	0.860 25	0.734 15
Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia: Stratified Transformer for 3D Point Cloud Segmentation. CVPR 2022
Virtual MVFusion	0.746 21	0.771 51	0.819 11	0.848 11	0.702 35	0.865 9	0.397 83	0.899 9	0.699 5	0.664 17	0.948 53	0.588 10	0.330 19	0.746 26	0.851 34	0.764 17	0.796 23	0.704 9	0.935 18	0.866 21	0.728 18
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
VMNet	0.746 21	0.870 18	0.838 2	0.858 4	0.729 29	0.850 19	0.501 35	0.874 15	0.587 52	0.658 18	0.956 25	0.564 21	0.299 30	0.765 15	0.900 11	0.716 35	0.812 11	0.631 37	0.939 14	0.858 26	0.709 29
Zeyu HU, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai: VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation. ICCV 2021 (Oral)
Retro-FPN	0.744 23	0.842 26	0.800 25	0.767 53	0.740 25	0.836 34	0.541 18	0.914 3	0.672 17	0.626 30	0.958 20	0.552 26	0.272 47	0.777 6	0.886 18	0.696 44	0.801 19	0.674 23	0.941 12	0.858 26	0.717 25
Peng Xiang, Xin Wen, Yu-Shen Liu, Hui Zhang, Yi Fang, Zhizhong Han: Retrospective Feature Pyramid Network for Point Cloud Semantic Segmentation. ICCV 2023
EQ-Net	0.743 24	0.620 93	0.799 28	0.849 9	0.730 28	0.822 48	0.493 42	0.897 10	0.664 18	0.681 9	0.955 28	0.562 22	0.378 3	0.760 17	0.903 9	0.738 24	0.801 19	0.673 24	0.907 35	0.877 13	0.745 12
Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya JIa: A Unified Query-based Paradigm for Point Cloud Understanding. CVPR 2022
LRPNet	0.742 25	0.816 34	0.806 22	0.807 35	0.752 19	0.828 42	0.575 6	0.839 29	0.699 5	0.637 27	0.954 34	0.520 38	0.320 23	0.755 21	0.834 38	0.760 18	0.772 38	0.676 20	0.915 33	0.862 23	0.717 25

SAT	0.742 25	0.860 21	0.765 47	0.819 26	0.769 11	0.848 22	0.533 22	0.829 32	0.663 19	0.631 29	0.955 28	0.586 12	0.274 45	0.753 22	0.896 13	0.729 26	0.760 48	0.666 26	0.921 28	0.855 30	0.733 16

LargeKernel3D	0.739 27	0.909 10	0.820 10	0.806 37	0.740 25	0.852 17	0.545 16	0.826 33	0.594 50	0.643 22	0.955 28	0.541 28	0.263 55	0.723 31	0.858 27	0.775 14	0.767 42	0.678 17	0.933 20	0.848 35	0.694 34
Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia: LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs. CVPR 2023
RPN	0.736 28	0.776 47	0.790 34	0.851 7	0.754 18	0.854 13	0.491 44	0.866 18	0.596 49	0.686 7	0.955 28	0.536 30	0.342 13	0.624 48	0.869 21	0.787 9	0.802 15	0.628 38	0.927 24	0.875 17	0.704 31

MinkowskiNet	0.736 28	0.859 22	0.818 13	0.832 22	0.709 33	0.840 29	0.521 28	0.853 22	0.660 21	0.643 22	0.951 43	0.544 27	0.286 38	0.731 29	0.893 14	0.675 53	0.772 38	0.683 16	0.874 64	0.852 33	0.727 20
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
IPCA	0.731 30	0.890 14	0.837 3	0.864 2	0.726 30	0.873 5	0.530 25	0.824 35	0.489 85	0.647 19	0.978 4	0.609 4	0.336 15	0.624 48	0.733 56	0.758 19	0.776 36	0.570 63	0.949 8	0.877 13	0.728 18

SparseConvNet	0.725 31	0.647 88	0.821 9	0.846 12	0.721 31	0.869 6	0.533 22	0.754 56	0.603 45	0.614 34	0.955 28	0.572 18	0.325 21	0.710 32	0.870 20	0.724 30	0.823 2	0.628 38	0.934 19	0.865 22	0.683 37

PointTransformer++	0.725 31	0.727 73	0.811 19	0.819 26	0.765 12	0.841 28	0.502 34	0.814 40	0.621 35	0.623 32	0.955 28	0.556 24	0.284 39	0.620 50	0.866 22	0.781 11	0.757 52	0.648 29	0.932 22	0.862 23	0.709 29

MatchingNet	0.724 33	0.812 36	0.812 18	0.810 32	0.735 27	0.834 36	0.495 41	0.860 21	0.572 59	0.602 42	0.954 34	0.512 40	0.280 42	0.757 19	0.845 36	0.725 29	0.780 34	0.606 48	0.937 16	0.851 34	0.700 33

INS-Conv-semantic	0.717 34	0.751 60	0.759 50	0.812 30	0.704 34	0.868 7	0.537 21	0.842 27	0.609 41	0.608 38	0.953 37	0.534 32	0.293 33	0.616 51	0.864 23	0.719 34	0.793 27	0.640 33	0.933 20	0.845 39	0.663 43

PointMetaBase	0.714 35	0.835 27	0.785 36	0.821 24	0.684 40	0.846 25	0.531 24	0.865 19	0.614 36	0.596 46	0.953 37	0.500 43	0.246 61	0.674 34	0.888 16	0.692 45	0.764 44	0.624 40	0.849 79	0.844 40	0.675 39

contrastBoundary	0.705 36	0.769 54	0.775 41	0.809 33	0.687 39	0.820 51	0.439 71	0.812 41	0.661 20	0.591 48	0.945 61	0.515 39	0.171 89	0.633 45	0.856 28	0.720 32	0.796 23	0.668 25	0.889 50	0.847 36	0.689 35
Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao: Contrastive Boundary Learning for Point Cloud Segmentation. CVPR2022
ClickSeg_Semantic	0.703 37	0.774 49	0.800 25	0.793 44	0.760 13	0.847 24	0.471 49	0.802 44	0.463 92	0.634 28	0.968 12	0.491 46	0.271 49	0.726 30	0.910 6	0.706 39	0.815 6	0.551 75	0.878 58	0.833 41	0.570 75

RFCR	0.702 38	0.889 15	0.745 61	0.813 29	0.672 43	0.818 55	0.493 42	0.815 39	0.623 33	0.610 36	0.947 55	0.470 55	0.249 60	0.594 54	0.848 35	0.705 40	0.779 35	0.646 30	0.892 48	0.823 47	0.611 58
Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma: Omni-Supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning. CVPR2021
One Thing One Click	0.701 39	0.825 31	0.796 29	0.723 60	0.716 32	0.832 38	0.433 73	0.816 37	0.634 30	0.609 37	0.969 10	0.418 81	0.344 12	0.559 66	0.833 39	0.715 36	0.808 13	0.560 69	0.902 40	0.847 36	0.680 38

JSENet	0.699 40	0.881 17	0.762 48	0.821 24	0.667 44	0.800 67	0.522 27	0.792 47	0.613 37	0.607 39	0.935 81	0.492 45	0.205 76	0.576 59	0.853 32	0.691 47	0.758 50	0.652 28	0.872 67	0.828 44	0.649 47
Zeyu HU, Mingmin Zhen, Xuyang BAI, Hongbo Fu, Chiew-lan Tai: JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D Point Clouds. ECCV 2020
One-Thing-One-Click	0.693 41	0.743 64	0.794 31	0.655 83	0.684 40	0.822 48	0.497 40	0.719 66	0.622 34	0.617 33	0.977 8	0.447 68	0.339 14	0.750 25	0.664 72	0.703 42	0.790 30	0.596 53	0.946 10	0.855 30	0.647 48
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
PicassoNet-II	0.692 42	0.732 69	0.772 42	0.786 45	0.677 42	0.866 8	0.517 29	0.848 24	0.509 78	0.626 30	0.952 41	0.536 30	0.225 67	0.545 72	0.704 63	0.689 50	0.810 12	0.564 68	0.903 39	0.854 32	0.729 17
Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian: Geometric feature learning for 3D meshes.
Feature_GeometricNet	0.690 43	0.884 16	0.754 54	0.795 42	0.647 51	0.818 55	0.422 75	0.802 44	0.612 38	0.604 40	0.945 61	0.462 58	0.189 84	0.563 65	0.853 32	0.726 28	0.765 43	0.632 36	0.904 37	0.821 50	0.606 62
Kangcheng Liu, Ben M. Chen: https://arxiv.org/abs/2012.09439. arXiv Preprint
FusionNet	0.688 44	0.704 78	0.741 65	0.754 57	0.656 46	0.829 40	0.501 35	0.741 61	0.609 41	0.548 56	0.950 47	0.522 37	0.371 4	0.633 45	0.756 51	0.715 36	0.771 40	0.623 41	0.861 75	0.814 53	0.658 44
Feihu Zhang, Jin Fang, Benjamin Wah, Philip Torr: Deep FusionNet for Point Cloud Semantic Segmentation. ECCV 2020
Feature-Geometry Net	0.685 45	0.866 19	0.748 58	0.819 26	0.645 53	0.794 70	0.450 61	0.802 44	0.587 52	0.604 40	0.945 61	0.464 57	0.201 79	0.554 68	0.840 37	0.723 31	0.732 62	0.602 51	0.907 35	0.822 49	0.603 65

KP-FCNN	0.684 46	0.847 25	0.758 52	0.784 47	0.647 51	0.814 58	0.473 48	0.772 50	0.605 43	0.594 47	0.935 81	0.450 66	0.181 87	0.587 55	0.805 46	0.690 48	0.785 33	0.614 44	0.882 54	0.819 51	0.632 54
H. Thomas, C. Qi, J. Deschaud, B. Marcotegui, F. Goulette, L. Guibas.: KPConv: Flexible and Deformable Convolution for Point Clouds. ICCV 2019
VACNN++	0.684 46	0.728 72	0.757 53	0.776 50	0.690 36	0.804 65	0.464 54	0.816 37	0.577 58	0.587 49	0.945 61	0.508 42	0.276 44	0.671 35	0.710 61	0.663 58	0.750 56	0.589 58	0.881 55	0.832 43	0.653 46

DGNet	0.684 46	0.712 77	0.784 37	0.782 49	0.658 45	0.835 35	0.499 39	0.823 36	0.641 27	0.597 45	0.950 47	0.487 48	0.281 41	0.575 60	0.619 76	0.647 66	0.764 44	0.620 43	0.871 70	0.846 38	0.688 36

Superpoint Network	0.683 49	0.851 24	0.728 69	0.800 41	0.653 48	0.806 63	0.468 51	0.804 42	0.572 59	0.602 42	0.946 58	0.453 65	0.239 64	0.519 77	0.822 41	0.689 50	0.762 47	0.595 55	0.895 46	0.827 45	0.630 55

PointContrast_LA_SEM	0.683 49	0.757 58	0.784 37	0.786 45	0.639 55	0.824 46	0.408 78	0.775 49	0.604 44	0.541 58	0.934 85	0.532 33	0.269 51	0.552 69	0.777 49	0.645 69	0.793 27	0.640 33	0.913 34	0.824 46	0.671 40

VI-PointConv	0.676 51	0.770 53	0.754 54	0.783 48	0.621 59	0.814 58	0.552 13	0.758 54	0.571 61	0.557 54	0.954 34	0.529 34	0.268 53	0.530 75	0.682 67	0.675 53	0.719 65	0.603 50	0.888 51	0.833 41	0.665 42
Xingyi Li, Wenxuan Wu, Xiaoli Z. Fern, Li Fuxin: The Devils in the Point Clouds: Studying the Robustness of Point Cloud Convolutions.
ROSMRF3D	0.673 52	0.789 40	0.748 58	0.763 55	0.635 57	0.814 58	0.407 80	0.747 58	0.581 56	0.573 51	0.950 47	0.484 49	0.271 49	0.607 52	0.754 52	0.649 63	0.774 37	0.596 53	0.883 53	0.823 47	0.606 62

SALANet	0.670 53	0.816 34	0.770 45	0.768 52	0.652 49	0.807 62	0.451 58	0.747 58	0.659 22	0.545 57	0.924 91	0.473 54	0.149 99	0.571 62	0.811 45	0.635 72	0.746 57	0.623 41	0.892 48	0.794 66	0.570 75

O3DSeg	0.668 54	0.822 32	0.771 44	0.496 103	0.651 50	0.833 37	0.541 18	0.761 53	0.555 67	0.611 35	0.966 13	0.489 47	0.370 5	0.388 97	0.580 79	0.776 13	0.751 54	0.570 63	0.956 6	0.817 52	0.646 49

PointConv	0.666 55	0.781 44	0.759 50	0.699 68	0.644 54	0.822 48	0.475 47	0.779 48	0.564 64	0.504 74	0.953 37	0.428 75	0.203 78	0.586 57	0.754 52	0.661 59	0.753 53	0.588 59	0.902 40	0.813 55	0.642 50
Wenxuan Wu, Zhongang Qi, Li Fuxin: PointConv: Deep Convolutional Networks on 3D Point Clouds. CVPR 2019
PointASNL	0.666 55	0.703 79	0.781 39	0.751 59	0.655 47	0.830 39	0.471 49	0.769 51	0.474 88	0.537 60	0.951 43	0.475 53	0.279 43	0.635 43	0.698 66	0.675 53	0.751 54	0.553 74	0.816 86	0.806 57	0.703 32
Xu Yan, Chaoda Zheng, Zhen Li, Sheng Wang, Shuguang Cui: PointASNL: Robust Point Clouds Processing using Nonlocal Neural Networks with Adaptive Sampling. CVPR 2020
PPCNN++	0.663 57	0.746 62	0.708 72	0.722 61	0.638 56	0.820 51	0.451 58	0.566 94	0.599 47	0.541 58	0.950 47	0.510 41	0.313 25	0.648 40	0.819 43	0.616 77	0.682 80	0.590 57	0.869 71	0.810 56	0.656 45
Pyunghwan Ahn, Juyoung Yang, Eojindl Yi, Chanho Lee, Junmo Kim: Projection-based Point Convolution for Efficient Point Cloud Segmentation. IEEE Access
MVF-GNN	0.658 58	0.558 100	0.751 56	0.655 83	0.690 36	0.722 92	0.453 57	0.867 16	0.579 57	0.576 50	0.893 103	0.523 36	0.293 33	0.733 28	0.571 81	0.692 45	0.659 87	0.606 48	0.875 61	0.804 59	0.668 41

DCM-Net	0.658 58	0.778 45	0.702 75	0.806 37	0.619 60	0.813 61	0.468 51	0.693 74	0.494 81	0.524 66	0.941 73	0.449 67	0.298 31	0.510 79	0.821 42	0.675 53	0.727 64	0.568 66	0.826 84	0.803 60	0.637 52
Jonas Schult, Francis Engelmann, Theodora Kontogianni, Bastian Leibe: DualConvMesh-Net: Joint Geodesic and Euclidean Convolutions on 3D Meshes. CVPR 2020 [Oral]
HPGCNN	0.656 60	0.698 81	0.743 63	0.650 85	0.564 77	0.820 51	0.505 33	0.758 54	0.631 31	0.479 78	0.945 61	0.480 51	0.226 65	0.572 61	0.774 50	0.690 48	0.735 60	0.614 44	0.853 78	0.776 81	0.597 68
Jisheng Dang, Qingyong Hu, Yulan Guo, Jun Yang: HPGCNN.
SAFNet-seg	0.654 61	0.752 59	0.734 67	0.664 81	0.583 72	0.815 57	0.399 82	0.754 56	0.639 28	0.535 62	0.942 71	0.470 55	0.309 27	0.665 36	0.539 83	0.650 62	0.708 70	0.635 35	0.857 77	0.793 68	0.642 50
Linqing Zhao, Jiwen Lu, Jie Zhou: Similarity-Aware Fusion Network for 3D Semantic Segmentation. IROS 2021
RandLA-Net	0.645 62	0.778 45	0.731 68	0.699 68	0.577 73	0.829 40	0.446 63	0.736 62	0.477 87	0.523 68	0.945 61	0.454 62	0.269 51	0.484 87	0.749 55	0.618 75	0.738 58	0.599 52	0.827 83	0.792 71	0.621 57

PointConv-SFPN	0.641 63	0.776 47	0.703 74	0.721 62	0.557 80	0.826 43	0.451 58	0.672 79	0.563 65	0.483 77	0.943 70	0.425 78	0.162 94	0.644 41	0.726 57	0.659 60	0.709 69	0.572 62	0.875 61	0.786 76	0.559 81

MVPNet	0.641 63	0.831 28	0.715 70	0.671 78	0.590 68	0.781 76	0.394 84	0.679 76	0.642 26	0.553 55	0.937 78	0.462 58	0.256 57	0.649 39	0.406 97	0.626 73	0.691 77	0.666 26	0.877 59	0.792 71	0.608 61
Maximilian Jaritz, Jiayuan Gu, Hao Su: Multi-view PointNet for 3D Scene Understanding. GMDL Workshop, ICCV 2019
PointMRNet	0.640 65	0.717 76	0.701 76	0.692 71	0.576 74	0.801 66	0.467 53	0.716 67	0.563 65	0.459 84	0.953 37	0.429 74	0.169 91	0.581 58	0.854 31	0.605 78	0.710 67	0.550 76	0.894 47	0.793 68	0.575 73

FPConv	0.639 66	0.785 42	0.760 49	0.713 66	0.603 63	0.798 68	0.392 85	0.534 99	0.603 45	0.524 66	0.948 53	0.457 60	0.250 59	0.538 73	0.723 59	0.598 82	0.696 75	0.614 44	0.872 67	0.799 61	0.567 78
Yiqun Lin, Zizheng Yan, Haibin Huang, Dong Du, Ligang Liu, Shuguang Cui, Xiaoguang Han: FPConv: Learning Local Flattening for Point Convolution. CVPR 2020
PD-Net	0.638 67	0.797 38	0.769 46	0.641 91	0.590 68	0.820 51	0.461 55	0.537 98	0.637 29	0.536 61	0.947 55	0.388 88	0.206 75	0.656 37	0.668 70	0.647 66	0.732 62	0.585 60	0.868 72	0.793 68	0.473 101

PointSPNet	0.637 68	0.734 68	0.692 83	0.714 65	0.576 74	0.797 69	0.446 63	0.743 60	0.598 48	0.437 89	0.942 71	0.403 84	0.150 98	0.626 47	0.800 48	0.649 63	0.697 74	0.557 72	0.846 80	0.777 80	0.563 79

SConv	0.636 69	0.830 29	0.697 79	0.752 58	0.572 76	0.780 78	0.445 65	0.716 67	0.529 71	0.530 63	0.951 43	0.446 69	0.170 90	0.507 82	0.666 71	0.636 71	0.682 80	0.541 82	0.886 52	0.799 61	0.594 69

Supervoxel-CNN	0.635 70	0.656 86	0.711 71	0.719 63	0.613 61	0.757 87	0.444 68	0.765 52	0.534 70	0.566 52	0.928 89	0.478 52	0.272 47	0.636 42	0.531 85	0.664 57	0.645 91	0.508 89	0.864 74	0.792 71	0.611 58

joint point-based	0.634 71	0.614 94	0.778 40	0.667 80	0.633 58	0.825 44	0.420 76	0.804 42	0.467 90	0.561 53	0.951 43	0.494 44	0.291 35	0.566 63	0.458 92	0.579 88	0.764 44	0.559 71	0.838 81	0.814 53	0.598 67
Hung-Yueh Chiang, Yen-Liang Lin, Yueh-Cheng Liu, Winston H. Hsu: A Unified Point-Based Framework for 3D Segmentation. 3DV 2019
PointMTL	0.632 72	0.731 70	0.688 86	0.675 75	0.591 67	0.784 75	0.444 68	0.565 95	0.610 39	0.492 75	0.949 51	0.456 61	0.254 58	0.587 55	0.706 62	0.599 81	0.665 86	0.612 47	0.868 72	0.791 74	0.579 72

3DSM_DMMF	0.631 73	0.626 91	0.745 61	0.801 40	0.607 62	0.751 88	0.506 32	0.729 65	0.565 63	0.491 76	0.866 106	0.434 70	0.197 82	0.595 53	0.630 75	0.709 38	0.705 72	0.560 69	0.875 61	0.740 91	0.491 96

PointNet2-SFPN	0.631 73	0.771 51	0.692 83	0.672 76	0.524 85	0.837 32	0.440 70	0.706 72	0.538 69	0.446 86	0.944 67	0.421 80	0.219 70	0.552 69	0.751 54	0.591 84	0.737 59	0.543 81	0.901 42	0.768 83	0.557 82

APCF-Net	0.631 73	0.742 65	0.687 88	0.672 76	0.557 80	0.792 73	0.408 78	0.665 80	0.545 68	0.508 71	0.952 41	0.428 75	0.186 85	0.634 44	0.702 64	0.620 74	0.706 71	0.555 73	0.873 65	0.798 63	0.581 71
Haojia, Lin: Adaptive Pyramid Context Fusion for Point Cloud Perception. GRSL
FusionAwareConv	0.630 76	0.604 96	0.741 65	0.766 54	0.590 68	0.747 89	0.501 35	0.734 63	0.503 80	0.527 64	0.919 95	0.454 62	0.323 22	0.550 71	0.420 96	0.678 52	0.688 78	0.544 79	0.896 45	0.795 65	0.627 56
Jiazhao Zhang, Chenyang Zhu, Lintao Zheng, Kai Xu: Fusion-Aware Point Convolution for Online Semantic 3D Scene Segmentation. CVPR 2020
DenSeR	0.628 77	0.800 37	0.625 99	0.719 63	0.545 82	0.806 63	0.445 65	0.597 88	0.448 95	0.519 69	0.938 77	0.481 50	0.328 20	0.489 86	0.499 90	0.657 61	0.759 49	0.592 56	0.881 55	0.797 64	0.634 53

SegGroup_sem	0.627 78	0.818 33	0.747 60	0.701 67	0.602 64	0.764 84	0.385 89	0.629 85	0.490 83	0.508 71	0.931 88	0.409 83	0.201 79	0.564 64	0.725 58	0.618 75	0.692 76	0.539 83	0.873 65	0.794 66	0.548 85
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
SIConv	0.625 79	0.830 29	0.694 81	0.757 56	0.563 78	0.772 82	0.448 62	0.647 83	0.520 74	0.509 70	0.949 51	0.431 73	0.191 83	0.496 84	0.614 77	0.647 66	0.672 84	0.535 85	0.876 60	0.783 77	0.571 74

dtc_net	0.625 79	0.703 79	0.751 56	0.794 43	0.535 83	0.848 22	0.480 46	0.676 78	0.528 72	0.469 81	0.944 67	0.454 62	0.004 112	0.464 89	0.636 74	0.704 41	0.758 50	0.548 78	0.924 26	0.787 75	0.492 95

HPEIN	0.618 81	0.729 71	0.668 89	0.647 87	0.597 66	0.766 83	0.414 77	0.680 75	0.520 74	0.525 65	0.946 58	0.432 71	0.215 72	0.493 85	0.599 78	0.638 70	0.617 96	0.570 63	0.897 44	0.806 57	0.605 64
Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi-Wing Fu, Jiaya Jia: Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation. ICCV 2019
SPH3D-GCN	0.610 82	0.858 23	0.772 42	0.489 104	0.532 84	0.792 73	0.404 81	0.643 84	0.570 62	0.507 73	0.935 81	0.414 82	0.046 109	0.510 79	0.702 64	0.602 80	0.705 72	0.549 77	0.859 76	0.773 82	0.534 88
Huan Lei, Naveed Akhtar, and Ajmal Mian: Spherical Kernel for Efficient Graph Convolution on 3D Point Clouds. TPAMI 2020
AttAN	0.609 83	0.760 56	0.667 90	0.649 86	0.521 86	0.793 71	0.457 56	0.648 82	0.528 72	0.434 91	0.947 55	0.401 85	0.153 97	0.454 90	0.721 60	0.648 65	0.717 66	0.536 84	0.904 37	0.765 84	0.485 97
Gege Zhang, Qinghua Ma, Licheng Jiao, Fang Liu and Qigong Sun: AttAN: Attention Adversarial Networks for 3D Point Cloud Semantic Segmentation. IJCAI2020
wsss-transformer	0.600 84	0.634 90	0.743 63	0.697 70	0.601 65	0.781 76	0.437 72	0.585 91	0.493 82	0.446 86	0.933 86	0.394 86	0.011 111	0.654 38	0.661 73	0.603 79	0.733 61	0.526 86	0.832 82	0.761 86	0.480 98

LAP-D	0.594 85	0.720 74	0.692 83	0.637 92	0.456 96	0.773 81	0.391 87	0.730 64	0.587 52	0.445 88	0.940 75	0.381 89	0.288 36	0.434 93	0.453 94	0.591 84	0.649 89	0.581 61	0.777 90	0.749 90	0.610 60

DPC	0.592 86	0.720 74	0.700 77	0.602 96	0.480 92	0.762 86	0.380 90	0.713 70	0.585 55	0.437 89	0.940 75	0.369 91	0.288 36	0.434 93	0.509 89	0.590 86	0.639 94	0.567 67	0.772 92	0.755 88	0.592 70
Francis Engelmann, Theodora Kontogianni, Bastian Leibe: Dilated Point Convolutions: On the Receptive Field Size of Point Convolutions on 3D Point Clouds. ICRA 2020
CCRFNet	0.589 87	0.766 55	0.659 94	0.683 73	0.470 95	0.740 91	0.387 88	0.620 87	0.490 83	0.476 79	0.922 93	0.355 94	0.245 62	0.511 78	0.511 88	0.571 89	0.643 92	0.493 93	0.872 67	0.762 85	0.600 66

ROSMRF	0.580 88	0.772 50	0.707 73	0.681 74	0.563 78	0.764 84	0.362 92	0.515 100	0.465 91	0.465 83	0.936 80	0.427 77	0.207 74	0.438 91	0.577 80	0.536 92	0.675 83	0.486 94	0.723 98	0.779 78	0.524 91

SD-DETR	0.576 89	0.746 62	0.609 103	0.445 108	0.517 87	0.643 103	0.366 91	0.714 69	0.456 93	0.468 82	0.870 105	0.432 71	0.264 54	0.558 67	0.674 68	0.586 87	0.688 78	0.482 95	0.739 96	0.733 93	0.537 87

SQN_0.1%	0.569 90	0.676 83	0.696 80	0.657 82	0.497 88	0.779 79	0.424 74	0.548 96	0.515 76	0.376 96	0.902 102	0.422 79	0.357 8	0.379 98	0.456 93	0.596 83	0.659 87	0.544 79	0.685 101	0.665 104	0.556 83

TextureNet	0.566 91	0.672 85	0.664 91	0.671 78	0.494 90	0.719 93	0.445 65	0.678 77	0.411 101	0.396 94	0.935 81	0.356 93	0.225 67	0.412 95	0.535 84	0.565 90	0.636 95	0.464 97	0.794 89	0.680 101	0.568 77
Jingwei Huang, Haotian Zhang, Li Yi, Thomas Funkerhouser, Matthias Niessner, Leonidas Guibas: TextureNet: Consistent Local Parametrizations for Learning from High-Resolution Signals on Meshes. CVPR
DVVNet	0.562 92	0.648 87	0.700 77	0.770 51	0.586 71	0.687 97	0.333 96	0.650 81	0.514 77	0.475 80	0.906 99	0.359 92	0.223 69	0.340 100	0.442 95	0.422 103	0.668 85	0.501 90	0.708 99	0.779 78	0.534 88

Pointnet++ & Feature	0.557 93	0.735 67	0.661 93	0.686 72	0.491 91	0.744 90	0.392 85	0.539 97	0.451 94	0.375 97	0.946 58	0.376 90	0.205 76	0.403 96	0.356 100	0.553 91	0.643 92	0.497 91	0.824 85	0.756 87	0.515 92

GMLPs	0.538 94	0.495 105	0.693 82	0.647 87	0.471 94	0.793 71	0.300 99	0.477 101	0.505 79	0.358 99	0.903 101	0.327 97	0.081 106	0.472 88	0.529 86	0.448 101	0.710 67	0.509 87	0.746 94	0.737 92	0.554 84

PanopticFusion-label	0.529 95	0.491 106	0.688 86	0.604 95	0.386 101	0.632 104	0.225 109	0.705 73	0.434 98	0.293 105	0.815 107	0.348 95	0.241 63	0.499 83	0.669 69	0.507 94	0.649 89	0.442 103	0.796 88	0.602 108	0.561 80
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
subcloud_weak	0.516 96	0.676 83	0.591 106	0.609 93	0.442 97	0.774 80	0.335 95	0.597 88	0.422 100	0.357 100	0.932 87	0.341 96	0.094 105	0.298 102	0.528 87	0.473 99	0.676 82	0.495 92	0.602 107	0.721 96	0.349 108

Online SegFusion	0.515 97	0.607 95	0.644 97	0.579 98	0.434 98	0.630 105	0.353 93	0.628 86	0.440 96	0.410 92	0.762 111	0.307 99	0.167 92	0.520 76	0.403 98	0.516 93	0.565 99	0.447 101	0.678 102	0.701 98	0.514 93
Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstroem, Cristian Sminchisescu, Luc van Gool: A Real-Time Learning Framework for Joint 3D Reconstruction and Semantic Segmentation. Robotics and Automation Letters Submission
3DMV, FTSDF	0.501 98	0.558 100	0.608 104	0.424 110	0.478 93	0.690 96	0.246 105	0.586 90	0.468 89	0.450 85	0.911 97	0.394 86	0.160 95	0.438 91	0.212 107	0.432 102	0.541 105	0.475 96	0.742 95	0.727 94	0.477 99

PCNN	0.498 99	0.559 99	0.644 97	0.560 100	0.420 100	0.711 95	0.229 107	0.414 102	0.436 97	0.352 101	0.941 73	0.324 98	0.155 96	0.238 107	0.387 99	0.493 95	0.529 106	0.509 87	0.813 87	0.751 89	0.504 94

Weakly-Openseg v3	0.489 100	0.749 61	0.664 91	0.646 89	0.496 89	0.559 109	0.122 112	0.577 92	0.257 112	0.364 98	0.805 108	0.198 110	0.096 104	0.510 79	0.496 91	0.361 107	0.563 100	0.359 110	0.777 90	0.644 105	0.532 90

3DMV	0.484 101	0.484 107	0.538 108	0.643 90	0.424 99	0.606 108	0.310 97	0.574 93	0.433 99	0.378 95	0.796 109	0.301 100	0.214 73	0.537 74	0.208 108	0.472 100	0.507 109	0.413 106	0.693 100	0.602 108	0.539 86
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
PointCNN with RGB	0.458 102	0.577 98	0.611 102	0.356 112	0.321 109	0.715 94	0.299 101	0.376 106	0.328 108	0.319 103	0.944 67	0.285 102	0.164 93	0.216 110	0.229 105	0.484 97	0.545 104	0.456 99	0.755 93	0.709 97	0.475 100
Yangyan Li, Rui Bu, Mingchao Sun, Baoquan Chen: PointCNN. NeurIPS 2018
FCPN	0.447 103	0.679 82	0.604 105	0.578 99	0.380 102	0.682 98	0.291 102	0.106 112	0.483 86	0.258 110	0.920 94	0.258 106	0.025 110	0.231 109	0.325 101	0.480 98	0.560 102	0.463 98	0.725 97	0.666 103	0.231 112
Dario Rethage, Johanna Wald, Jürgen Sturm, Nassir Navab, Federico Tombari: Fully-Convolutional Point Networks for Large-Scale Point Clouds. ECCV 2018
DGCNN_reproduce	0.446 104	0.474 108	0.623 100	0.463 106	0.366 104	0.651 101	0.310 97	0.389 105	0.349 106	0.330 102	0.937 78	0.271 104	0.126 101	0.285 103	0.224 106	0.350 109	0.577 98	0.445 102	0.625 105	0.723 95	0.394 104
Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E. Sarma, Michael M. Bronstein, Justin M. Solomon: Dynamic Graph CNN for Learning on Point Clouds. TOG 2019
PNET2	0.442 105	0.548 102	0.548 107	0.597 97	0.363 105	0.628 106	0.300 99	0.292 107	0.374 103	0.307 104	0.881 104	0.268 105	0.186 85	0.238 107	0.204 109	0.407 104	0.506 110	0.449 100	0.667 103	0.620 107	0.462 102

SurfaceConvPF	0.442 105	0.505 104	0.622 101	0.380 111	0.342 107	0.654 100	0.227 108	0.397 104	0.367 104	0.276 107	0.924 91	0.240 107	0.198 81	0.359 99	0.262 103	0.366 105	0.581 97	0.435 104	0.640 104	0.668 102	0.398 103
Hao Pan, Shilin Liu, Yang Liu, Xin Tong: Convolutional Neural Networks on 3D Surfaces Using Parallel Frames.
Tangent Convolutions	0.438 107	0.437 110	0.646 96	0.474 105	0.369 103	0.645 102	0.353 93	0.258 109	0.282 110	0.279 106	0.918 96	0.298 101	0.147 100	0.283 104	0.294 102	0.487 96	0.562 101	0.427 105	0.619 106	0.633 106	0.352 107
Maxim Tatarchenko, Jaesik Park, Vladlen Koltun, Qian-Yi Zhou: Tangent convolutions for dense prediction in 3d. CVPR 2018
3DWSSS	0.425 108	0.525 103	0.647 95	0.522 101	0.324 108	0.488 112	0.077 113	0.712 71	0.353 105	0.401 93	0.636 113	0.281 103	0.176 88	0.340 100	0.565 82	0.175 113	0.551 103	0.398 107	0.370 113	0.602 108	0.361 106

SPLAT Net	0.393 109	0.472 109	0.511 109	0.606 94	0.311 110	0.656 99	0.245 106	0.405 103	0.328 108	0.197 111	0.927 90	0.227 109	0.000 114	0.001 114	0.249 104	0.271 112	0.510 107	0.383 109	0.593 108	0.699 99	0.267 110
Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz: SPLATNet: Sparse Lattice Networks for Point Cloud Processing. CVPR 2018
ScanNet+FTSDF	0.383 110	0.297 112	0.491 110	0.432 109	0.358 106	0.612 107	0.274 103	0.116 111	0.411 101	0.265 108	0.904 100	0.229 108	0.079 107	0.250 105	0.185 110	0.320 110	0.510 107	0.385 108	0.548 109	0.597 111	0.394 104

PointNet++	0.339 111	0.584 97	0.478 111	0.458 107	0.256 112	0.360 113	0.250 104	0.247 110	0.278 111	0.261 109	0.677 112	0.183 111	0.117 102	0.212 111	0.145 112	0.364 106	0.346 113	0.232 113	0.548 109	0.523 112	0.252 111
Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas: pointnet++: deep hierarchical feature learning on point sets in a metric space.
SSC-UNet	0.308 112	0.353 111	0.290 113	0.278 113	0.166 113	0.553 110	0.169 111	0.286 108	0.147 113	0.148 113	0.908 98	0.182 112	0.064 108	0.023 113	0.018 114	0.354 108	0.363 111	0.345 111	0.546 111	0.685 100	0.278 109

ScanNet	0.306 113	0.203 113	0.366 112	0.501 102	0.311 110	0.524 111	0.211 110	0.002 114	0.342 107	0.189 112	0.786 110	0.145 113	0.102 103	0.245 106	0.152 111	0.318 111	0.348 112	0.300 112	0.460 112	0.437 113	0.182 113
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17
ERROR	0.054 114	0.000 114	0.041 114	0.172 114	0.030 114	0.062 114	0.001 114	0.035 113	0.004 114	0.051 114	0.143 114	0.019 114	0.003 113	0.041 112	0.050 113	0.003 114	0.054 114	0.018 114	0.005 114	0.264 114	0.082 114

This table lists the benchmark results for the 3D semantic instance scenario.

Method	avg ap 50%	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

Spherical Mask(CtoF)	0.812 1	1.000 1	0.973 3	0.852 11	0.718 3	0.917 3	0.574 3	0.677 25	0.748 7	0.729 7	0.715 4	0.795 1	0.809 1	1.000 1	0.831 3	0.854 7	0.787 7	1.000 1	0.638 3

OneFormer3D	0.801 2	1.000 1	0.973 2	0.909 5	0.698 9	0.928 2	0.582 2	0.668 28	0.685 12	0.780 2	0.687 8	0.698 11	0.702 12	1.000 1	0.794 7	0.900 2	0.784 9	0.986 45	0.635 4
Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: OneFormer3D: One Transformer for Unified Point Cloud Segmentation.
UniPerception	0.800 3	1.000 1	0.930 6	0.872 9	0.727 2	0.862 17	0.454 12	0.764 13	0.820 1	0.746 5	0.706 6	0.750 2	0.772 8	0.926 38	0.764 11	0.818 21	0.826 1	0.997 34	0.660 2

TST3D	0.795 4	1.000 1	0.929 7	0.918 4	0.709 6	0.884 11	0.596 1	0.704 21	0.769 5	0.734 6	0.644 14	0.699 10	0.751 10	1.000 1	0.794 6	0.876 4	0.757 16	0.997 34	0.550 25

ExtMask3D	0.789 5	1.000 1	0.988 1	0.756 27	0.706 7	0.912 4	0.429 13	0.647 33	0.806 4	0.755 4	0.673 10	0.689 12	0.772 9	1.000 1	0.789 8	0.852 8	0.811 3	1.000 1	0.617 9

Queryformer	0.787 6	1.000 1	0.933 5	0.601 42	0.754 1	0.886 9	0.558 5	0.661 30	0.767 6	0.665 12	0.716 3	0.639 18	0.808 3	1.000 1	0.844 1	0.897 3	0.804 4	1.000 1	0.624 6

MAFT	0.786 7	1.000 1	0.894 12	0.807 17	0.694 11	0.893 7	0.486 8	0.674 26	0.740 8	0.786 1	0.704 7	0.727 4	0.739 11	1.000 1	0.707 17	0.849 10	0.756 17	1.000 1	0.685 1

Mask3D	0.780 8	1.000 1	0.786 36	0.716 32	0.696 10	0.885 10	0.500 7	0.714 19	0.810 3	0.672 11	0.715 4	0.679 14	0.809 1	1.000 1	0.831 3	0.833 14	0.787 7	1.000 1	0.602 13
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
SPFormer	0.770 9	0.903 49	0.903 9	0.806 18	0.609 24	0.886 8	0.568 4	0.815 6	0.705 11	0.711 8	0.655 11	0.652 17	0.685 17	1.000 1	0.789 9	0.809 22	0.776 12	1.000 1	0.583 18
Sun Jiahao, Qing Chunmei, Tan Junpeng, Xu Xiangmin: Superpoint Transformer for 3D Scene Instance Segmentation. AAAI 2023 [Oral]
SoftGroup++	0.769 10	1.000 1	0.803 29	0.937 1	0.684 12	0.865 14	0.213 28	0.870 2	0.664 15	0.571 18	0.758 1	0.702 8	0.807 4	1.000 1	0.653 24	0.902 1	0.792 6	1.000 1	0.626 5

SIM3D	0.766 11	1.000 1	0.948 4	0.582 48	0.599 26	0.882 12	0.510 6	0.701 22	0.632 19	0.772 3	0.685 9	0.687 13	0.782 7	1.000 1	0.833 2	0.756 32	0.798 5	1.000 1	0.622 7

SoftGroup	0.761 12	1.000 1	0.808 25	0.845 12	0.716 4	0.862 16	0.243 25	0.824 4	0.655 17	0.620 13	0.734 2	0.699 9	0.791 6	0.981 32	0.716 15	0.844 11	0.769 13	1.000 1	0.594 16
Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo: SoftGroup for 3D Instance Segmentaiton on Point Clouds. CVPR 2022 [Oral]
ISBNet	0.757 13	1.000 1	0.904 8	0.731 30	0.678 13	0.895 5	0.458 10	0.644 35	0.670 14	0.710 9	0.620 19	0.732 3	0.650 19	1.000 1	0.756 12	0.778 25	0.779 10	1.000 1	0.614 10
Tuan Duc Ngo, Binh-Son Hua, Khoi Nguyen: ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution. CVPR 2023
TD3D	0.751 14	1.000 1	0.774 37	0.867 10	0.621 20	0.934 1	0.404 14	0.706 20	0.812 2	0.605 16	0.633 17	0.626 19	0.690 16	1.000 1	0.640 26	0.820 18	0.777 11	1.000 1	0.612 11
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
PBNet	0.747 15	1.000 1	0.818 21	0.837 14	0.713 5	0.844 19	0.457 11	0.647 33	0.711 10	0.614 14	0.617 21	0.657 16	0.650 19	1.000 1	0.692 18	0.822 17	0.765 15	1.000 1	0.595 15
W.Zhao, Y.Yan, C.Yang, J.Ye,X.Yang,K.Huang: Divide and Conquer: 3D Instance Segmentation With Point-Wise Binarization. ICCV 2023
GraphCut	0.732 16	1.000 1	0.788 34	0.724 31	0.642 18	0.859 18	0.248 24	0.787 11	0.618 21	0.596 17	0.653 13	0.722 6	0.583 40	1.000 1	0.766 10	0.861 5	0.825 2	1.000 1	0.504 31

IPCA-Inst	0.731 17	1.000 1	0.788 35	0.884 8	0.698 8	0.788 35	0.252 23	0.760 14	0.646 18	0.511 26	0.637 16	0.665 15	0.804 5	1.000 1	0.644 25	0.778 26	0.747 19	1.000 1	0.561 22

TopoSeg	0.725 18	1.000 1	0.806 28	0.933 2	0.668 15	0.758 39	0.272 22	0.734 18	0.630 20	0.549 22	0.654 12	0.606 20	0.697 15	0.966 35	0.612 30	0.839 12	0.754 18	1.000 1	0.573 19

DKNet	0.718 19	1.000 1	0.814 22	0.782 21	0.619 21	0.872 13	0.224 26	0.751 16	0.569 25	0.677 10	0.585 25	0.724 5	0.633 30	0.981 32	0.515 40	0.819 19	0.736 20	1.000 1	0.617 8
Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong: 3D Instances as 1D Kernels. ECCV 2022
SSEC	0.707 20	1.000 1	0.850 14	0.924 3	0.648 16	0.747 42	0.162 30	0.862 3	0.572 24	0.520 24	0.624 18	0.549 23	0.649 28	1.000 1	0.560 35	0.706 42	0.768 14	1.000 1	0.591 17

HAIS	0.699 21	1.000 1	0.849 15	0.820 15	0.675 14	0.808 29	0.279 20	0.757 15	0.465 31	0.517 25	0.596 23	0.559 22	0.600 34	1.000 1	0.654 23	0.767 28	0.676 24	0.994 41	0.560 23
Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang: Hierarchical Aggregation for 3D Instance Segmentation. ICCV 2021
SSTNet	0.698 22	1.000 1	0.697 53	0.888 7	0.556 32	0.803 30	0.387 15	0.626 37	0.417 36	0.556 21	0.585 26	0.702 7	0.600 34	1.000 1	0.824 5	0.720 41	0.692 22	1.000 1	0.509 30
Zhihao Liang, Zhihao Li, Songcen Xu, Mingkui Tan, Kui Jia: Instance Segmentation in 3D Scenes using Semantic Superpoint Tree Networks. ICCV2021
DualGroup	0.694 23	1.000 1	0.799 31	0.811 16	0.622 19	0.817 24	0.376 16	0.805 9	0.590 23	0.487 30	0.568 29	0.525 27	0.650 19	0.835 48	0.600 31	0.829 15	0.655 27	1.000 1	0.526 27

DANCENET	0.680 24	1.000 1	0.807 26	0.733 29	0.600 25	0.768 38	0.375 17	0.543 45	0.538 26	0.610 15	0.599 22	0.498 28	0.632 32	0.981 32	0.739 14	0.856 6	0.633 33	0.882 56	0.454 40

SphereSeg	0.680 24	1.000 1	0.856 13	0.744 28	0.618 22	0.893 6	0.151 31	0.651 32	0.713 9	0.537 23	0.579 28	0.430 37	0.651 18	1.000 1	0.389 51	0.744 36	0.697 21	0.991 43	0.601 14

Box2Mask	0.677 26	1.000 1	0.847 16	0.771 23	0.509 41	0.816 25	0.277 21	0.558 44	0.482 28	0.562 20	0.640 15	0.448 33	0.700 13	1.000 1	0.666 19	0.852 9	0.578 40	0.997 34	0.488 35
Julian Chibane, Francis Engelmann, Tuan Anh Tran, Gerard Pons-Moll: Box2Mask: Weakly Supervised 3D Semantic Instance Segmentation Using Bounding Boxes. ECCV 2022
OccuSeg+instance	0.672 27	1.000 1	0.758 45	0.682 35	0.576 30	0.842 20	0.477 9	0.504 51	0.524 27	0.567 19	0.585 27	0.451 32	0.557 42	1.000 1	0.751 13	0.797 23	0.563 43	1.000 1	0.467 39
Lei Han, Tian Zheng, Lan Xu, Lu Fang: OccuSeg: Occupancy-aware 3D Instance Segmentation. CVPR2020
Mask-Group	0.664 28	1.000 1	0.822 20	0.764 26	0.616 23	0.815 26	0.139 35	0.694 24	0.597 22	0.459 34	0.566 30	0.599 21	0.600 34	0.516 58	0.715 16	0.819 20	0.635 31	1.000 1	0.603 12
Min Zhong, Xinghao Chen, Xiaokang Chen, Gang Zeng, Yunhe Wang: MaskGroup: Hierarchical Point Grouping and Masking for 3D Instance Segmentation. ICME 2022
INS-Conv-instance	0.657 29	1.000 1	0.760 43	0.667 37	0.581 28	0.863 15	0.323 18	0.655 31	0.477 29	0.473 32	0.549 32	0.432 36	0.650 19	1.000 1	0.655 22	0.738 37	0.585 39	0.944 48	0.472 38

CSC-Pretrained	0.648 30	1.000 1	0.810 23	0.768 24	0.523 39	0.813 27	0.143 34	0.819 5	0.389 39	0.422 43	0.511 36	0.443 34	0.650 19	1.000 1	0.624 28	0.732 38	0.634 32	1.000 1	0.375 47

PE	0.645 31	1.000 1	0.773 39	0.798 20	0.538 34	0.786 36	0.088 43	0.799 10	0.350 43	0.435 41	0.547 33	0.545 24	0.646 29	0.933 37	0.562 34	0.761 31	0.556 48	0.997 34	0.501 33
Biao Zhang, Peter Wonka: Point Cloud Instance Segmentation using Probabilistic Embeddings. CVPR 2021
RPGN	0.643 32	1.000 1	0.758 44	0.582 49	0.539 33	0.826 23	0.046 48	0.765 12	0.372 41	0.436 40	0.588 24	0.539 26	0.650 19	1.000 1	0.577 32	0.750 34	0.653 29	0.997 34	0.495 34
Shichao Dong, Guosheng Lin, Tzu-Yi Hung: Learning Regional Purity for Instance Segmentation on 3D Point Clouds. ECCV 2022
Dyco3D	0.641 33	1.000 1	0.841 17	0.893 6	0.531 36	0.802 31	0.115 40	0.588 42	0.448 33	0.438 38	0.537 35	0.430 38	0.550 43	0.857 40	0.534 38	0.764 30	0.657 26	0.987 44	0.568 20
Tong He; Chunhua Shen; Anton van den Hengel: DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution. CVPR2021
GICN	0.638 34	1.000 1	0.895 11	0.800 19	0.480 45	0.676 47	0.144 33	0.737 17	0.354 42	0.447 35	0.400 49	0.365 44	0.700 13	1.000 1	0.569 33	0.836 13	0.599 35	1.000 1	0.473 37

PointGroup	0.636 35	1.000 1	0.765 40	0.624 39	0.505 43	0.797 32	0.116 39	0.696 23	0.384 40	0.441 36	0.559 31	0.476 30	0.596 37	1.000 1	0.666 19	0.756 33	0.556 47	0.997 34	0.513 29
Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia: PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation. CVPR 2020 [oral]
DD-UNet+Group	0.635 36	0.667 51	0.797 33	0.714 33	0.562 31	0.774 37	0.146 32	0.810 8	0.429 35	0.476 31	0.546 34	0.399 40	0.633 30	1.000 1	0.632 27	0.722 40	0.609 34	1.000 1	0.514 28
H. Liu, R. Liu, K. Yang, J. Zhang, K. Peng, R. Stiefelhagen: HIDA: Towards Holistic Indoor Understanding for the Visually Impaired via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor. ICCVW 2021
Mask3D_evaluation	0.631 37	1.000 1	0.829 19	0.606 41	0.646 17	0.836 21	0.068 44	0.511 49	0.462 32	0.507 27	0.619 20	0.389 42	0.610 33	1.000 1	0.432 46	0.828 16	0.673 25	0.788 60	0.552 24

DENet	0.629 38	1.000 1	0.797 32	0.608 40	0.589 27	0.627 51	0.219 27	0.882 1	0.310 45	0.402 48	0.383 51	0.396 41	0.650 19	1.000 1	0.663 21	0.543 59	0.691 23	1.000 1	0.568 21

3D-MPA	0.611 39	1.000 1	0.833 18	0.765 25	0.526 38	0.756 40	0.136 37	0.588 42	0.470 30	0.438 39	0.432 45	0.358 46	0.650 19	0.857 40	0.429 47	0.765 29	0.557 46	1.000 1	0.430 42
Francis Engelmann, Martin Bokeloh, Alireza Fathi, Bastian Leibe, Matthias Nießner: 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation. CVPR 2020
OSIS	0.605 40	1.000 1	0.801 30	0.599 43	0.535 35	0.728 44	0.286 19	0.436 55	0.679 13	0.491 28	0.433 43	0.256 48	0.404 55	0.857 40	0.620 29	0.724 39	0.510 53	1.000 1	0.539 26

AOIA	0.601 41	1.000 1	0.761 42	0.687 34	0.485 44	0.828 22	0.008 55	0.663 29	0.405 38	0.405 47	0.425 46	0.490 29	0.596 37	0.714 51	0.553 37	0.779 24	0.597 36	0.992 42	0.424 44

PCJC	0.578 42	1.000 1	0.810 24	0.583 47	0.449 48	0.813 28	0.042 49	0.603 40	0.341 44	0.490 29	0.465 40	0.410 39	0.650 19	0.835 48	0.264 57	0.694 46	0.561 44	0.889 53	0.504 32

SSEN	0.575 43	1.000 1	0.761 41	0.473 51	0.477 46	0.795 33	0.066 45	0.529 47	0.658 16	0.460 33	0.461 41	0.380 43	0.331 57	0.859 39	0.401 50	0.692 48	0.653 28	1.000 1	0.348 49
Dongsu Zhang, Junha Chun, Sang Kyun Cha, Young Min Kim: Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with Deep Metric Learning. Arxiv
RWSeg	0.567 44	0.528 61	0.708 52	0.626 38	0.580 29	0.745 43	0.063 46	0.627 36	0.240 49	0.400 49	0.497 37	0.464 31	0.515 44	1.000 1	0.475 42	0.745 35	0.571 41	1.000 1	0.429 43

NeuralBF	0.555 45	0.667 51	0.896 10	0.843 13	0.517 40	0.751 41	0.029 50	0.519 48	0.414 37	0.439 37	0.465 39	0.000 67	0.484 46	0.857 40	0.287 55	0.693 47	0.651 30	1.000 1	0.485 36
Weiwei Sun, Daniel Rebain, Renjie Liao, Vladimir Tankovich, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi: NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation on Point Clouds. WACV 2023
MTML	0.549 46	1.000 1	0.807 27	0.588 46	0.327 53	0.647 49	0.004 57	0.815 7	0.180 52	0.418 44	0.364 53	0.182 51	0.445 49	1.000 1	0.442 45	0.688 49	0.571 42	1.000 1	0.396 45
Jean Lahoud, Bernard Ghanem, Marc Pollefeys, Martin R. Oswald: 3D Instance Segmentation via Multi-task Metric Learning. ICCV 2019 [oral]
ClickSeg_Instance	0.539 47	1.000 1	0.621 56	0.300 54	0.530 37	0.698 45	0.127 38	0.533 46	0.222 50	0.430 42	0.400 48	0.365 44	0.574 41	0.938 36	0.472 43	0.659 51	0.543 49	0.944 48	0.347 50

One_Thing_One_Click	0.529 48	0.667 51	0.718 48	0.777 22	0.399 49	0.683 46	0.000 60	0.669 27	0.138 55	0.391 50	0.374 52	0.539 25	0.360 56	0.641 55	0.556 36	0.774 27	0.593 37	0.997 34	0.251 55
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
Sparse R-CNN	0.515 49	1.000 1	0.538 61	0.282 55	0.468 47	0.790 34	0.173 29	0.345 57	0.429 34	0.413 46	0.484 38	0.176 52	0.595 39	0.591 56	0.522 39	0.668 50	0.476 54	0.986 46	0.327 51

Occipital-SCS	0.512 50	1.000 1	0.716 49	0.509 50	0.506 42	0.611 52	0.092 42	0.602 41	0.177 53	0.346 53	0.383 50	0.165 53	0.442 50	0.850 47	0.386 52	0.618 55	0.543 50	0.889 53	0.389 46

3D-BoNet	0.488 51	1.000 1	0.672 55	0.590 45	0.301 55	0.484 62	0.098 41	0.620 38	0.306 46	0.341 54	0.259 57	0.125 55	0.434 52	0.796 50	0.402 49	0.499 61	0.513 52	0.909 52	0.439 41
Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen Wang, Andrew Markham, Niki Trigoni: Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds. NeurIPS 2019 Spotlight
PanopticFusion-inst	0.478 52	0.667 51	0.712 51	0.595 44	0.259 58	0.550 58	0.000 60	0.613 39	0.175 54	0.250 59	0.434 42	0.437 35	0.411 54	0.857 40	0.485 41	0.591 58	0.267 64	0.944 48	0.359 48
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
SPG_WSIS	0.470 53	0.667 51	0.685 54	0.677 36	0.372 51	0.562 56	0.000 60	0.482 52	0.244 48	0.316 56	0.298 54	0.052 62	0.442 51	0.857 40	0.267 56	0.702 43	0.559 45	1.000 1	0.287 53

SALoss-ResNet	0.459 54	1.000 1	0.737 47	0.159 65	0.259 57	0.587 54	0.138 36	0.475 53	0.217 51	0.416 45	0.408 47	0.128 54	0.315 58	0.714 51	0.411 48	0.536 60	0.590 38	0.873 57	0.304 52
Zhidong Liang, Ming Yang, Hao Li, Chunxiang Wang: 3D Instance Embedding Learning With a Structure-Aware Loss Function for Point Cloud Segmentation. IEEE Robotics and Automation Letters (IROS2020)
MASC	0.447 55	0.528 61	0.555 59	0.381 52	0.382 50	0.633 50	0.002 58	0.509 50	0.260 47	0.361 52	0.432 44	0.327 47	0.451 48	0.571 57	0.367 53	0.639 53	0.386 55	0.980 47	0.276 54
Chen Liu, Yasutaka Furukawa: MASC: Multi-scale Affinity with Sparse Convolution for 3D Instance Segmentation.
SegGroup_ins	0.445 56	0.667 51	0.773 38	0.185 62	0.317 54	0.656 48	0.000 60	0.407 56	0.134 56	0.381 51	0.267 56	0.217 50	0.476 47	0.714 51	0.452 44	0.629 54	0.514 51	1.000 1	0.222 58
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
3D-SIS	0.382 57	1.000 1	0.432 64	0.245 57	0.190 59	0.577 55	0.013 54	0.263 59	0.033 62	0.320 55	0.240 58	0.075 58	0.422 53	0.857 40	0.117 62	0.699 44	0.271 63	0.883 55	0.235 57
Ji Hou, Angela Dai, Matthias Niessner: 3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. CVPR 2019
Hier3D	0.323 58	0.667 51	0.542 60	0.264 56	0.157 62	0.550 57	0.000 60	0.205 62	0.009 64	0.270 58	0.218 59	0.075 58	0.500 45	0.688 54	0.007 68	0.698 45	0.301 60	0.459 65	0.200 59
Tan: HCFS3D: Hierarchical Coupled Feature Selection Network for 3D Semantic and Instance Segmentation.
UNet-backbone	0.319 59	0.667 51	0.715 50	0.233 58	0.189 60	0.479 63	0.008 55	0.218 60	0.067 61	0.201 61	0.173 60	0.107 56	0.123 63	0.438 59	0.150 59	0.615 56	0.355 56	0.916 51	0.093 67

R-PointNet	0.306 60	0.500 63	0.405 65	0.311 53	0.348 52	0.589 53	0.054 47	0.068 65	0.126 57	0.283 57	0.290 55	0.028 63	0.219 61	0.214 62	0.331 54	0.396 65	0.275 61	0.821 59	0.245 56

Region-18class	0.284 61	0.250 67	0.751 46	0.228 60	0.270 56	0.521 59	0.000 60	0.468 54	0.008 66	0.205 60	0.127 61	0.000 67	0.068 65	0.070 66	0.262 58	0.652 52	0.323 58	0.740 61	0.173 60

SemRegionNet-20cls	0.250 62	0.333 64	0.613 57	0.229 59	0.163 61	0.493 60	0.000 60	0.304 58	0.107 58	0.147 64	0.100 63	0.052 61	0.231 59	0.119 64	0.039 64	0.445 63	0.325 57	0.654 62	0.141 63

tmp	0.248 63	0.667 51	0.437 63	0.188 61	0.153 63	0.491 61	0.000 60	0.208 61	0.094 60	0.153 63	0.099 64	0.057 60	0.217 62	0.119 64	0.039 64	0.466 62	0.302 59	0.640 63	0.140 64

3D-BEVIS	0.248 63	0.667 51	0.566 58	0.076 66	0.035 68	0.394 66	0.027 52	0.035 67	0.098 59	0.099 66	0.030 67	0.025 64	0.098 64	0.375 61	0.126 61	0.604 57	0.181 66	0.854 58	0.171 61
Cathrin Elich, Francis Engelmann, Jonas Schult, Theodora Kontogianni, Bastian Leibe: 3D-BEVIS: Birds-Eye-View Instance Segmentation.
Sem_Recon_ins	0.227 65	0.764 50	0.486 62	0.069 67	0.098 65	0.426 65	0.017 53	0.067 66	0.015 63	0.172 62	0.100 62	0.096 57	0.054 67	0.183 63	0.135 60	0.366 66	0.260 65	0.614 64	0.168 62

ASIS	0.199 66	0.333 64	0.253 67	0.167 64	0.140 64	0.438 64	0.000 60	0.177 63	0.008 65	0.121 65	0.069 65	0.004 66	0.231 60	0.429 60	0.036 66	0.445 64	0.273 62	0.333 67	0.119 66

Sgpn_scannet	0.143 67	0.208 68	0.390 66	0.169 63	0.065 66	0.275 67	0.029 51	0.069 64	0.000 67	0.087 67	0.043 66	0.014 65	0.027 68	0.000 67	0.112 63	0.351 67	0.168 67	0.438 66	0.138 65

MaskRCNN 2d->3d Proj	0.058 68	0.333 64	0.002 68	0.000 68	0.053 67	0.002 68	0.002 59	0.021 68	0.000 67	0.045 68	0.024 68	0.238 49	0.065 66	0.000 67	0.014 67	0.107 68	0.020 68	0.110 68	0.006 68

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

Virtual MVFusion (R)	0.745 1	0.861 1	0.839 1	0.881 1	0.672 2	0.512 1	0.422 17	0.898 1	0.723 1	0.714 1	0.954 2	0.454 1	0.509 1	0.773 1	0.895 1	0.756 1	0.820 1	0.653 1	0.935 1	0.891 1	0.728 1
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
BPNet_2D	0.670 2	0.822 3	0.795 3	0.836 2	0.659 3	0.481 2	0.451 13	0.769 4	0.656 3	0.567 4	0.931 3	0.395 6	0.390 5	0.700 4	0.534 4	0.689 10	0.770 2	0.574 3	0.865 9	0.831 3	0.675 5
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia and Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MVF-GNN（2D）	0.636 3	0.606 14	0.794 4	0.434 16	0.688 1	0.337 8	0.464 12	0.798 3	0.632 5	0.589 3	0.908 8	0.420 2	0.329 12	0.743 2	0.594 2	0.738 2	0.676 5	0.527 4	0.906 2	0.818 6	0.715 3

CU-Hybrid-2D Net	0.636 3	0.825 2	0.820 2	0.179 23	0.648 4	0.463 3	0.549 2	0.742 7	0.676 2	0.628 2	0.961 1	0.420 2	0.379 6	0.684 8	0.381 18	0.732 3	0.723 3	0.599 2	0.827 16	0.851 2	0.634 7

CMX	0.613 5	0.681 8	0.725 12	0.502 12	0.634 6	0.297 18	0.478 10	0.830 2	0.651 4	0.537 7	0.924 4	0.375 7	0.315 14	0.686 7	0.451 14	0.714 5	0.543 21	0.504 6	0.894 7	0.823 5	0.688 4

DMMF_3d	0.605 6	0.651 9	0.744 10	0.782 3	0.637 5	0.387 4	0.536 3	0.732 8	0.590 7	0.540 6	0.856 21	0.359 11	0.306 15	0.596 14	0.539 3	0.627 20	0.706 4	0.497 8	0.785 21	0.757 19	0.476 22

EMSANet	0.600 7	0.716 4	0.746 9	0.395 18	0.614 9	0.382 5	0.523 4	0.713 11	0.571 11	0.503 10	0.922 6	0.404 5	0.397 4	0.655 9	0.400 16	0.626 21	0.663 6	0.469 13	0.900 4	0.827 4	0.577 14
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
MCA-Net	0.595 8	0.533 20	0.756 8	0.746 4	0.590 10	0.334 10	0.506 7	0.670 15	0.587 8	0.500 12	0.905 10	0.366 10	0.352 9	0.601 13	0.506 8	0.669 16	0.648 9	0.501 7	0.839 15	0.769 15	0.516 21

RFBNet	0.592 9	0.616 11	0.758 7	0.659 5	0.581 11	0.330 11	0.469 11	0.655 18	0.543 14	0.524 8	0.924 4	0.355 13	0.336 11	0.572 17	0.479 10	0.671 14	0.648 9	0.480 10	0.814 19	0.814 7	0.614 10

FAN_NV_RVC	0.586 10	0.510 21	0.764 6	0.079 26	0.620 8	0.330 11	0.494 8	0.753 5	0.573 9	0.556 5	0.884 16	0.405 4	0.303 16	0.718 3	0.452 13	0.672 13	0.658 7	0.509 5	0.898 5	0.813 8	0.727 2

DCRedNet	0.583 11	0.682 7	0.723 13	0.542 11	0.510 20	0.310 15	0.451 13	0.668 16	0.549 13	0.520 9	0.920 7	0.375 7	0.446 2	0.528 20	0.417 15	0.670 15	0.577 18	0.478 11	0.862 10	0.806 9	0.628 9

MIX6D_RVC	0.582 12	0.695 5	0.687 17	0.225 21	0.632 7	0.328 13	0.550 1	0.748 6	0.623 6	0.494 15	0.890 14	0.350 15	0.254 23	0.688 6	0.454 12	0.716 4	0.597 17	0.489 9	0.881 8	0.768 16	0.575 15

SSMA	0.577 13	0.695 5	0.716 15	0.439 14	0.563 14	0.314 14	0.444 15	0.719 9	0.551 12	0.503 10	0.887 15	0.346 16	0.348 10	0.603 12	0.353 20	0.709 6	0.600 15	0.457 14	0.901 3	0.786 11	0.599 13
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
DMMF	0.567 14	0.623 10	0.767 5	0.238 20	0.571 13	0.347 6	0.413 19	0.719 9	0.472 20	0.418 22	0.895 13	0.357 12	0.260 22	0.696 5	0.523 7	0.666 17	0.642 11	0.437 18	0.895 6	0.793 10	0.603 12

UNIV_CNP_RVC_UE	0.566 15	0.569 19	0.686 19	0.435 15	0.524 17	0.294 19	0.421 18	0.712 12	0.543 14	0.463 17	0.872 17	0.320 17	0.363 8	0.611 11	0.477 11	0.686 11	0.627 12	0.443 17	0.862 10	0.775 14	0.639 6

EMSAFormer	0.564 16	0.581 16	0.736 11	0.564 10	0.546 16	0.219 23	0.517 5	0.675 14	0.486 19	0.427 21	0.904 11	0.352 14	0.320 13	0.589 15	0.528 5	0.708 7	0.464 24	0.413 22	0.847 14	0.786 11	0.611 11

SN_RN152pyrx8_RVC	0.546 17	0.572 17	0.663 21	0.638 7	0.518 18	0.298 17	0.366 24	0.633 21	0.510 17	0.446 19	0.864 19	0.296 20	0.267 19	0.542 19	0.346 21	0.704 8	0.575 19	0.431 19	0.853 13	0.766 17	0.630 8

UDSSEG_RVC	0.545 18	0.610 13	0.661 22	0.588 8	0.556 15	0.268 21	0.482 9	0.642 20	0.572 10	0.475 16	0.836 23	0.312 18	0.367 7	0.630 10	0.189 23	0.639 19	0.495 23	0.452 15	0.826 17	0.756 20	0.541 17

segfomer with 6d	0.542 19	0.594 15	0.687 17	0.146 24	0.579 12	0.308 16	0.515 6	0.703 13	0.472 20	0.498 13	0.868 18	0.369 9	0.282 17	0.589 15	0.390 17	0.701 9	0.556 20	0.416 21	0.860 12	0.759 18	0.539 19

FuseNet	0.535 20	0.570 18	0.681 20	0.182 22	0.512 19	0.290 20	0.431 16	0.659 17	0.504 18	0.495 14	0.903 12	0.308 19	0.428 3	0.523 21	0.365 19	0.676 12	0.621 14	0.470 12	0.762 22	0.779 13	0.541 17
Caner Hazirbas, Lingni Ma, Csaba Domokos, Daniel Cremers: FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. ACCV 2016
AdapNet++	0.503 21	0.613 12	0.722 14	0.418 17	0.358 26	0.337 8	0.370 23	0.479 24	0.443 22	0.368 24	0.907 9	0.207 23	0.213 25	0.464 24	0.525 6	0.618 22	0.657 8	0.450 16	0.788 20	0.721 23	0.408 25
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
3DMV (2d proj)	0.498 22	0.481 24	0.612 23	0.579 9	0.456 22	0.343 7	0.384 21	0.623 22	0.525 16	0.381 23	0.845 22	0.254 22	0.264 21	0.557 18	0.182 24	0.581 24	0.598 16	0.429 20	0.760 23	0.661 25	0.446 24
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
MSeg1080_RVC	0.485 23	0.505 22	0.709 16	0.092 25	0.427 23	0.241 22	0.411 20	0.654 19	0.385 26	0.457 18	0.861 20	0.053 26	0.279 18	0.503 22	0.481 9	0.645 18	0.626 13	0.365 24	0.748 24	0.725 22	0.529 20
John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun: MSeg: A Composite Dataset for Multi-domain Semantic Segmentation. CVPR 2020
ILC-PSPNet	0.475 24	0.490 23	0.581 24	0.289 19	0.507 21	0.067 26	0.379 22	0.610 23	0.417 24	0.435 20	0.822 25	0.278 21	0.267 19	0.503 22	0.228 22	0.616 23	0.533 22	0.375 23	0.820 18	0.729 21	0.560 16

Enet (reimpl)	0.376 25	0.264 26	0.452 26	0.452 13	0.365 24	0.181 24	0.143 26	0.456 25	0.409 25	0.346 25	0.769 26	0.164 24	0.218 24	0.359 25	0.123 26	0.403 26	0.381 26	0.313 26	0.571 25	0.685 24	0.472 23
Re-implementation of Adam Paszke, Abhishek Chaurasia, Sangpil Kim, Eugenio Culurciello: ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation.
ScanNet (2d proj)	0.330 26	0.293 25	0.521 25	0.657 6	0.361 25	0.161 25	0.250 25	0.004 26	0.440 23	0.183 26	0.836 23	0.125 25	0.060 26	0.319 26	0.132 25	0.417 25	0.412 25	0.344 25	0.541 26	0.427 26	0.109 26
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

EMSANet (Instance)	0.241 1	0.401 1	0.439 1	0.085 1	0.242 1	0.220 1	0.081 1	0.289 2	0.117 2	0.121 1	0.182 1	0.126 1	0.346 1	0.181 2	0.181 2	0.358 1	0.156 1	0.675 2	0.131 1
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
UniDet_RVC	0.205 2	0.381 2	0.323 3	0.037 3	0.226 3	0.177 3	0.063 2	0.277 3	0.120 1	0.067 3	0.131 3	0.074 3	0.317 2	0.080 3	0.235 1	0.289 3	0.141 3	0.678 1	0.080 3

FKNet	0.204 3	0.334 3	0.358 2	0.038 2	0.234 2	0.184 2	0.025 3	0.318 1	0.042 4	0.088 2	0.141 2	0.053 4	0.300 3	0.207 1	0.171 3	0.292 2	0.149 2	0.636 3	0.109 2

MaskRCNN_ScanNet	0.119 4	0.129 4	0.212 4	0.002 4	0.112 4	0.148 4	0.014 4	0.205 4	0.044 3	0.066 4	0.078 4	0.095 2	0.142 4	0.030 4	0.128 4	0.139 4	0.080 4	0.459 4	0.057 4
Re-implementation of Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick: Mask R-CNN. ICCV'17

Presenting the ScanNet200 Benchmark

ScanNet200 Benchmark

ScanNet200 3D Semantic Label Benchmark

ScanNet200 3D Semantic Instance Benchmark

ScanNet Benchmark

3D Semantic Label Benchmark

3D Semantic Instance Benchmark

2D Semantic Label Benchmark

2D Semantic Instance Benchmark

Scene Type Classification Benchmark

Method	avg recall	apartment	bathroom	bedroom / hotel	bookstore / library	conference room	copy/mail room	hallway	kitchen	laundry room	living room / lounge	misc	office	storage / basement / garage

LAST-PCL-type	0.780 1	0.250 3	1.000 1	1.000 1	1.000 1	1.000 1	1.000 1	0.500 2	1.000 1	0.500 2	0.889 1	0.000 2	1.000 1	1.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang: Language-Assisted 3D Scene Understanding. arxiv23.12
multi-task	0.700 2	0.500 1	1.000 1	0.882 3	0.500 3	1.000 1	1.000 1	0.500 2	1.000 1	1.000 1	0.778 2	0.000 2	0.938 2	0.000 3
Shengyu Huang, Mikhail Usvyatsov, Konrad Schindler: Indoor Scene Recognition in 3D. IROS 2020
3DASPP-SCE	0.691 3	0.500 1	0.938 3	0.824 4	1.000 1	1.000 1	0.500 3	1.000 1	0.857 3	0.500 2	0.556 4	0.000 2	0.812 3	0.500 2

SE-ResNeXt-SSMA	0.498 4	0.000 5	0.812 4	0.941 2	0.500 3	0.500 4	0.500 3	0.500 2	0.429 5	0.500 2	0.667 3	0.500 1	0.625 4	0.000 3
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. arXiv
resnet50_scannet	0.353 5	0.250 3	0.812 4	0.529 5	0.500 3	0.500 4	0.000 5	0.500 2	0.571 4	0.000 5	0.556 4	0.000 2	0.375 5	0.000 3