Benchmark Results - ScanNet Benchmark

This table lists the benchmark results for the ScanNet200 3D semantic label scenario.

Method	avg iou	head iou	common iou	tail iou	wall	chair	floor	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

OctFormer ScanNet200	0.326 7	0.539 6	0.265 6	0.131 6	0.806 5	0.670 7	0.943 6	0.535 7	0.662 2	0.705 10	0.423 5	0.407 3	0.505 8	0.003 7	0.765 7	0.582 4	0.686 9	0.227 10	0.680 5	0.943 5	0.601 1	0.854 8	0.892 2	0.335 2	0.417 11	0.357 6	0.724 7	0.453 5	0.632 4	0.596 2	0.432 2	0.783 6	0.512 11	0.021 9	0.244 9	0.637 1	0.000 1	0.787 6	0.873 6	0.743 9	0.000 11	0.000 7	0.534 5	0.110 1	0.499 4	0.289 5	0.626 4	0.620 9	0.168 11	0.204 1	0.849 4	0.679 4	0.117 2	0.633 6	0.684 2	0.650 5	0.552 2	0.684 7	0.312 2	0.000 3	0.175 6	0.429 6	0.865 3	0.413 2	0.837 6	0.000 3	0.145 5	0.626 5	0.451 4	0.487 7	0.513 1	0.000 1	0.529 4	0.613 7	0.000 4	0.033 3	0.000 1	0.000 3	0.828 2	0.871 2	0.622 5	0.587 5	0.411 4	0.137 8	0.645 8	0.343 6	0.000 3	0.000 4	0.000 1	0.022 7	0.000 3	0.026 11	0.829 8	0.000 1	0.022 5	0.089 3	0.842 1	0.253 10	0.318 8	0.296 2	0.178 6	0.291 3	0.224 1	0.584 2	0.200 8	0.132 5	0.000 3	0.128 5	0.227 10	0.000 1	0.230 7	0.047 8	0.149 4	0.331 7	0.412 6	0.618 4	0.164 5	0.102 6	0.522 1	0.000 1	0.655 3	0.378 7	0.469 9	0.000 1	0.000 6	0.000 6	0.105 5	0.000 5	0.000 6	0.483 3	0.000 6	0.000 4	0.028 4	0.000 1	0.000 1	0.906 1	0.000 1	0.339 9	0.000 1	0.000 7	0.457 6	0.000 1	0.612 5	0.000 1	0.000 1	0.408 2	0.000 9	0.900 6	0.000 5	0.000 5	0.000 1	0.029 4	0.000 1	0.074 11	0.455 9	0.479 3	0.427 4	0.079 7	0.140 8	0.496 5	0.414 8	0.022 2	0.000 1	0.471 8	0.000 2	0.000 2	0.000 7	0.722 3	0.000 2	0.000 1	0.000 1	0.138 8	0.000 4	0.000 2	0.000 6	0.000 1
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
PTv3 ScanNet200	0.393 1	0.592 1	0.330 1	0.216 1	0.851 1	0.687 3	0.971 1	0.586 1	0.755 1	0.752 4	0.505 1	0.404 4	0.575 2	0.000 9	0.848 1	0.616 1	0.761 1	0.349 1	0.738 1	0.978 1	0.546 3	0.860 6	0.926 1	0.346 1	0.654 3	0.384 4	0.828 1	0.523 3	0.699 1	0.583 3	0.387 5	0.822 1	0.688 1	0.118 4	0.474 1	0.603 4	0.000 1	0.832 2	0.903 1	0.753 7	0.140 6	0.000 7	0.650 1	0.109 2	0.520 1	0.457 1	0.497 6	0.871 3	0.281 1	0.192 2	0.887 2	0.748 1	0.168 1	0.727 2	0.733 1	0.740 1	0.644 1	0.714 3	0.190 7	0.000 3	0.256 2	0.449 5	0.914 1	0.514 1	0.759 9	0.337 1	0.172 3	0.692 3	0.617 1	0.636 1	0.325 3	0.000 1	0.641 1	0.782 1	0.000 4	0.065 2	0.000 1	0.000 3	0.842 1	0.903 1	0.661 1	0.662 2	0.612 1	0.405 2	0.731 1	0.566 1	0.000 3	0.000 4	0.000 1	0.017 9	0.301 1	0.088 4	0.941 1	0.000 1	0.077 2	0.000 7	0.717 2	0.790 1	0.310 9	0.026 11	0.264 2	0.349 1	0.220 2	0.397 7	0.366 1	0.115 7	0.000 3	0.337 1	0.463 4	0.000 1	0.531 1	0.218 1	0.593 1	0.455 1	0.469 1	0.708 1	0.210 1	0.592 2	0.108 10	0.000 1	0.728 1	0.682 2	0.671 4	0.000 1	0.000 6	0.407 1	0.136 1	0.022 2	0.575 1	0.436 4	0.259 1	0.428 1	0.048 2	0.000 1	0.000 1	0.879 5	0.000 1	0.480 1	0.000 1	0.133 4	0.597 1	0.000 1	0.690 1	0.000 1	0.000 1	0.009 10	0.000 9	0.921 2	0.000 5	0.151 1	0.000 1	0.000 5	0.000 1	0.109 6	0.494 8	0.622 2	0.394 6	0.073 9	0.141 7	0.798 1	0.528 2	0.026 1	0.000 1	0.551 2	0.000 2	0.000 2	0.134 5	0.717 4	0.000 2	0.000 1	0.000 1	0.188 2	0.000 4	0.000 2	0.791 1	0.000 1
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
OA-CNN-L_ScanNet200	0.333 5	0.558 2	0.269 5	0.124 7	0.821 2	0.703 1	0.946 3	0.569 2	0.662 2	0.748 5	0.487 2	0.455 1	0.572 4	0.000 9	0.789 4	0.534 5	0.736 5	0.271 3	0.713 2	0.949 3	0.498 10	0.877 2	0.860 5	0.332 3	0.706 1	0.474 1	0.788 5	0.406 7	0.637 3	0.495 5	0.355 6	0.805 3	0.592 9	0.015 10	0.396 2	0.602 5	0.000 1	0.799 5	0.876 4	0.713 11	0.276 1	0.000 7	0.493 7	0.080 5	0.448 9	0.363 2	0.661 2	0.833 5	0.262 3	0.125 3	0.823 6	0.665 5	0.076 6	0.720 3	0.557 5	0.637 6	0.517 5	0.672 8	0.227 5	0.000 3	0.158 7	0.496 4	0.843 8	0.352 6	0.835 7	0.000 3	0.103 9	0.711 2	0.527 2	0.526 4	0.320 4	0.000 1	0.568 3	0.625 6	0.067 1	0.000 6	0.000 1	0.001 2	0.806 3	0.836 5	0.621 6	0.591 4	0.373 5	0.314 4	0.668 4	0.398 5	0.003 2	0.000 4	0.000 1	0.016 10	0.024 2	0.043 9	0.906 4	0.000 1	0.052 4	0.000 7	0.384 6	0.330 8	0.342 5	0.100 6	0.223 4	0.183 7	0.112 4	0.476 4	0.313 4	0.130 6	0.196 2	0.112 6	0.370 8	0.000 1	0.234 6	0.071 6	0.160 3	0.403 3	0.398 8	0.492 9	0.197 2	0.076 8	0.272 3	0.000 1	0.200 11	0.560 5	0.735 3	0.000 1	0.000 6	0.000 6	0.110 4	0.002 4	0.021 5	0.412 5	0.000 6	0.000 4	0.000 7	0.000 1	0.000 1	0.794 6	0.000 1	0.445 2	0.000 1	0.022 5	0.509 5	0.000 1	0.517 10	0.000 1	0.000 1	0.001 11	0.245 2	0.915 4	0.024 2	0.089 2	0.000 1	0.262 2	0.000 1	0.103 8	0.524 4	0.392 7	0.515 2	0.013 11	0.251 4	0.411 9	0.662 1	0.001 7	0.000 1	0.473 7	0.000 2	0.000 2	0.150 4	0.699 5	0.000 2	0.000 1	0.000 1	0.166 4	0.000 4	0.024 1	0.000 6	0.000 1

PPT-SpUNet-F.T.	0.332 6	0.556 3	0.270 3	0.123 8	0.816 3	0.682 4	0.946 3	0.549 5	0.657 5	0.756 3	0.459 4	0.376 5	0.550 6	0.001 8	0.807 2	0.616 1	0.727 6	0.267 4	0.691 3	0.942 6	0.530 6	0.872 4	0.874 4	0.330 4	0.542 8	0.374 5	0.792 3	0.400 8	0.673 2	0.572 4	0.433 1	0.793 4	0.623 4	0.008 11	0.351 4	0.594 6	0.000 1	0.783 7	0.876 4	0.833 4	0.213 3	0.000 7	0.537 4	0.091 3	0.519 2	0.304 4	0.620 5	0.942 1	0.264 2	0.124 4	0.855 3	0.695 2	0.086 5	0.646 5	0.506 10	0.658 4	0.535 3	0.715 2	0.314 1	0.000 3	0.241 3	0.608 2	0.897 2	0.359 5	0.858 5	0.000 3	0.076 11	0.611 7	0.392 6	0.509 5	0.378 2	0.000 1	0.579 2	0.565 10	0.000 4	0.000 6	0.000 1	0.000 3	0.755 4	0.806 7	0.661 1	0.572 9	0.350 6	0.181 6	0.660 6	0.300 8	0.000 3	0.000 4	0.000 1	0.023 6	0.000 3	0.042 10	0.930 2	0.000 1	0.000 7	0.077 4	0.584 3	0.392 6	0.339 6	0.185 4	0.171 7	0.308 2	0.006 9	0.563 3	0.256 5	0.150 1	0.000 3	0.002 10	0.345 9	0.000 1	0.045 8	0.197 2	0.063 5	0.323 8	0.453 2	0.600 5	0.163 6	0.037 9	0.349 2	0.000 1	0.672 2	0.679 3	0.753 1	0.000 1	0.000 6	0.000 6	0.117 2	0.000 5	0.000 6	0.291 8	0.000 6	0.000 4	0.039 3	0.000 1	0.000 1	0.899 2	0.000 1	0.374 7	0.000 1	0.000 7	0.545 4	0.000 1	0.634 3	0.000 1	0.000 1	0.074 7	0.223 3	0.914 5	0.000 5	0.021 3	0.000 1	0.000 5	0.000 1	0.112 4	0.498 7	0.649 1	0.383 7	0.095 1	0.135 10	0.449 7	0.432 6	0.008 5	0.000 1	0.518 4	0.000 2	0.000 2	0.000 7	0.796 2	0.000 2	0.000 1	0.000 1	0.138 8	0.000 4	0.000 2	0.000 6	0.000 1
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
CSC-Pretrain	0.249 11	0.455 11	0.171 10	0.079 11	0.766 11	0.659 9	0.930 11	0.494 8	0.542 11	0.700 11	0.314 11	0.215 11	0.430 11	0.121 1	0.697 11	0.441 10	0.683 10	0.235 8	0.609 11	0.895 10	0.476 11	0.816 10	0.770 11	0.186 8	0.634 4	0.216 11	0.734 6	0.340 10	0.471 10	0.307 10	0.293 11	0.591 11	0.542 10	0.076 5	0.205 10	0.464 9	0.000 1	0.484 11	0.832 11	0.766 6	0.052 10	0.000 7	0.413 10	0.059 10	0.418 10	0.222 10	0.318 11	0.609 10	0.206 9	0.112 5	0.743 8	0.625 8	0.076 6	0.579 10	0.548 7	0.590 10	0.371 10	0.552 11	0.081 10	0.003 2	0.142 8	0.201 11	0.638 11	0.233 10	0.686 11	0.000 3	0.142 6	0.444 11	0.375 7	0.247 11	0.198 8	0.000 1	0.128 11	0.454 11	0.019 2	0.097 1	0.000 1	0.000 3	0.553 9	0.557 10	0.373 7	0.545 10	0.164 10	0.014 11	0.547 10	0.174 9	0.000 3	0.002 2	0.000 1	0.037 2	0.000 3	0.063 8	0.664 11	0.000 1	0.000 7	0.130 2	0.170 8	0.152 11	0.335 7	0.079 8	0.110 9	0.175 8	0.098 6	0.175 11	0.166 9	0.045 11	0.207 1	0.014 8	0.465 3	0.000 1	0.001 11	0.001 11	0.046 6	0.299 9	0.327 10	0.537 7	0.033 10	0.012 11	0.186 7	0.000 1	0.205 10	0.377 8	0.463 10	0.000 1	0.058 2	0.000 6	0.055 9	0.041 1	0.000 6	0.105 10	0.000 6	0.000 4	0.000 7	0.000 1	0.000 1	0.398 9	0.000 1	0.308 11	0.000 1	0.000 7	0.319 9	0.000 1	0.543 9	0.000 1	0.000 1	0.062 9	0.004 7	0.862 10	0.000 5	0.000 5	0.000 1	0.000 5	0.000 1	0.123 3	0.316 10	0.225 9	0.250 9	0.094 2	0.180 5	0.332 10	0.441 5	0.000 8	0.000 1	0.310 11	0.000 2	0.000 2	0.000 7	0.592 8	0.000 2	0.000 1	0.000 1	0.203 1	0.000 4	0.000 2	0.000 6	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
PonderV2 ScanNet200	0.346 2	0.552 4	0.270 4	0.175 3	0.810 4	0.682 4	0.950 2	0.560 4	0.641 6	0.761 1	0.398 7	0.357 6	0.570 5	0.113 2	0.804 3	0.603 3	0.750 3	0.283 2	0.681 4	0.952 2	0.548 2	0.874 3	0.852 7	0.290 6	0.700 2	0.356 7	0.792 3	0.445 6	0.545 7	0.436 6	0.351 7	0.787 5	0.611 5	0.050 6	0.290 8	0.519 8	0.000 1	0.825 4	0.888 2	0.842 3	0.259 2	0.100 2	0.558 3	0.070 8	0.497 5	0.247 8	0.457 7	0.889 2	0.248 5	0.106 6	0.817 7	0.691 3	0.094 4	0.729 1	0.636 3	0.620 8	0.503 7	0.660 9	0.243 4	0.000 3	0.212 5	0.590 3	0.860 6	0.400 3	0.881 3	0.000 3	0.202 1	0.622 6	0.408 5	0.499 6	0.261 6	0.000 1	0.385 5	0.636 5	0.000 4	0.000 6	0.000 1	0.000 3	0.433 11	0.843 4	0.660 3	0.574 8	0.481 2	0.336 3	0.677 3	0.486 2	0.000 3	0.030 1	0.000 1	0.034 4	0.000 3	0.080 5	0.869 7	0.000 1	0.000 7	0.000 7	0.540 4	0.727 2	0.232 11	0.115 5	0.186 5	0.193 5	0.000 10	0.403 6	0.326 3	0.103 8	0.000 3	0.290 3	0.392 6	0.000 1	0.346 4	0.062 7	0.424 2	0.375 4	0.431 3	0.667 2	0.115 8	0.082 7	0.239 4	0.000 1	0.504 8	0.606 4	0.584 6	0.000 1	0.002 4	0.186 4	0.104 6	0.000 5	0.394 2	0.384 6	0.083 4	0.000 4	0.007 5	0.000 1	0.000 1	0.880 4	0.000 1	0.377 6	0.000 1	0.263 2	0.565 2	0.000 1	0.608 6	0.000 1	0.000 1	0.304 4	0.009 5	0.924 1	0.000 5	0.000 5	0.000 1	0.000 5	0.000 1	0.128 2	0.584 1	0.475 4	0.412 5	0.076 8	0.269 3	0.621 3	0.509 3	0.010 3	0.000 1	0.491 6	0.063 1	0.000 2	0.472 3	0.880 1	0.000 2	0.000 1	0.000 1	0.179 3	0.125 1	0.000 2	0.441 5	0.000 1
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
CeCo	0.340 3	0.551 5	0.247 7	0.181 2	0.784 7	0.661 8	0.939 7	0.564 3	0.624 7	0.721 6	0.484 3	0.429 2	0.575 2	0.027 5	0.774 6	0.503 8	0.753 2	0.242 7	0.656 7	0.945 4	0.534 4	0.865 5	0.860 5	0.177 11	0.616 5	0.400 2	0.818 2	0.579 1	0.615 5	0.367 8	0.408 4	0.726 9	0.633 2	0.162 1	0.360 3	0.619 2	0.000 1	0.828 3	0.873 6	0.924 2	0.109 8	0.083 3	0.564 2	0.057 11	0.475 7	0.266 6	0.781 1	0.767 6	0.257 4	0.100 7	0.825 5	0.663 6	0.048 10	0.620 8	0.551 6	0.595 9	0.532 4	0.692 6	0.246 3	0.000 3	0.213 4	0.615 1	0.861 5	0.376 4	0.900 2	0.000 3	0.102 10	0.660 4	0.321 9	0.547 3	0.226 7	0.000 1	0.311 7	0.742 2	0.011 3	0.006 5	0.000 1	0.000 3	0.546 10	0.824 6	0.345 8	0.665 1	0.450 3	0.435 1	0.683 2	0.411 4	0.338 1	0.000 4	0.000 1	0.030 5	0.000 3	0.068 6	0.892 5	0.000 1	0.063 3	0.000 7	0.257 7	0.304 9	0.387 3	0.079 8	0.228 3	0.190 6	0.000 10	0.586 1	0.347 2	0.133 4	0.000 3	0.037 7	0.377 7	0.000 1	0.384 3	0.006 10	0.003 7	0.421 2	0.410 7	0.643 3	0.171 4	0.121 4	0.142 8	0.000 1	0.510 7	0.447 6	0.474 8	0.000 1	0.000 6	0.286 2	0.083 7	0.000 5	0.000 6	0.603 1	0.096 3	0.063 3	0.000 7	0.000 1	0.000 1	0.898 3	0.000 1	0.429 3	0.000 1	0.400 1	0.550 3	0.000 1	0.633 4	0.000 1	0.000 1	0.377 3	0.000 9	0.916 3	0.000 5	0.000 5	0.000 1	0.000 5	0.000 1	0.102 9	0.499 6	0.296 8	0.463 3	0.089 4	0.304 1	0.740 2	0.401 10	0.010 3	0.000 1	0.560 1	0.000 2	0.000 2	0.709 1	0.652 6	0.000 2	0.000 1	0.000 1	0.143 6	0.000 4	0.000 2	0.609 2	0.000 1
Zhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia: Understanding Imbalanced Semantic Segmentation Through Neural Collapse. CVPR 2023
AWCS	0.305 8	0.508 8	0.225 8	0.142 5	0.782 8	0.634 11	0.937 8	0.489 9	0.578 8	0.721 6	0.364 9	0.355 7	0.515 7	0.023 6	0.764 8	0.523 7	0.707 8	0.264 5	0.633 8	0.922 8	0.507 9	0.886 1	0.804 9	0.179 9	0.436 10	0.300 8	0.656 10	0.529 2	0.501 9	0.394 7	0.296 10	0.820 2	0.603 6	0.131 3	0.179 11	0.619 2	0.000 1	0.707 10	0.865 8	0.773 5	0.171 4	0.010 6	0.484 8	0.063 9	0.463 8	0.254 7	0.332 10	0.649 8	0.220 7	0.100 7	0.729 9	0.613 9	0.071 8	0.582 9	0.628 4	0.702 2	0.424 9	0.749 1	0.137 9	0.000 3	0.142 8	0.360 8	0.863 4	0.305 8	0.877 4	0.000 3	0.173 2	0.606 8	0.337 8	0.478 8	0.154 9	0.000 1	0.253 8	0.664 4	0.000 4	0.000 6	0.000 1	0.000 3	0.626 8	0.782 8	0.302 10	0.602 3	0.185 9	0.282 5	0.651 7	0.317 7	0.000 3	0.000 4	0.000 1	0.022 7	0.000 3	0.154 1	0.876 6	0.000 1	0.014 6	0.063 6	0.029 11	0.553 3	0.467 2	0.084 7	0.124 8	0.157 10	0.049 8	0.373 8	0.252 6	0.097 9	0.000 3	0.219 4	0.542 2	0.000 1	0.392 2	0.172 5	0.000 9	0.339 6	0.417 5	0.533 8	0.093 9	0.115 5	0.195 6	0.000 1	0.516 6	0.288 10	0.741 2	0.000 1	0.001 5	0.233 3	0.056 8	0.000 5	0.159 3	0.334 7	0.077 5	0.000 4	0.000 7	0.000 1	0.000 1	0.749 8	0.000 1	0.411 4	0.000 1	0.008 6	0.452 7	0.000 1	0.595 7	0.000 1	0.000 1	0.220 6	0.006 6	0.894 8	0.006 4	0.000 5	0.000 1	0.000 5	0.000 1	0.112 4	0.504 5	0.404 6	0.551 1	0.093 3	0.129 11	0.484 6	0.381 11	0.000 8	0.000 1	0.396 9	0.000 2	0.000 2	0.620 2	0.402 11	0.000 2	0.000 1	0.000 1	0.142 7	0.000 4	0.000 2	0.512 4	0.000 1

L3DETR-ScanNet_200	0.336 4	0.533 7	0.279 2	0.155 4	0.801 6	0.689 2	0.946 3	0.539 6	0.660 4	0.759 2	0.380 8	0.333 8	0.583 1	0.000 9	0.788 5	0.529 6	0.740 4	0.261 6	0.679 6	0.940 7	0.525 7	0.860 6	0.883 3	0.226 7	0.613 6	0.397 3	0.720 8	0.512 4	0.565 6	0.620 1	0.417 3	0.775 8	0.629 3	0.158 2	0.298 6	0.579 7	0.000 1	0.835 1	0.883 3	0.927 1	0.114 7	0.079 4	0.511 6	0.073 7	0.508 3	0.312 3	0.629 3	0.861 4	0.192 10	0.098 9	0.908 1	0.636 7	0.032 11	0.563 11	0.514 9	0.664 3	0.505 6	0.697 5	0.225 6	0.000 3	0.264 1	0.411 7	0.860 6	0.321 7	0.960 1	0.058 2	0.109 8	0.776 1	0.526 3	0.557 2	0.303 5	0.000 1	0.339 6	0.712 3	0.000 4	0.014 4	0.000 1	0.000 3	0.638 7	0.856 3	0.641 4	0.579 7	0.107 11	0.119 9	0.661 5	0.416 3	0.000 3	0.000 4	0.000 1	0.007 11	0.000 3	0.067 7	0.910 3	0.000 1	0.000 7	0.000 7	0.463 5	0.448 4	0.294 10	0.324 1	0.293 1	0.211 4	0.108 5	0.448 5	0.068 11	0.141 3	0.000 3	0.330 2	0.699 1	0.000 1	0.256 5	0.192 3	0.000 9	0.355 5	0.418 4	0.209 11	0.146 7	0.679 1	0.101 11	0.000 1	0.503 9	0.687 1	0.671 4	0.000 1	0.000 6	0.174 5	0.117 2	0.000 5	0.122 4	0.515 2	0.104 2	0.259 2	0.312 1	0.000 1	0.000 1	0.765 7	0.000 1	0.369 8	0.000 1	0.183 3	0.422 8	0.000 1	0.646 2	0.000 1	0.000 1	0.565 1	0.001 8	0.125 11	0.010 3	0.002 4	0.000 1	0.487 1	0.000 1	0.075 10	0.548 2	0.420 5	0.233 10	0.082 6	0.138 9	0.430 8	0.427 7	0.000 8	0.000 1	0.549 3	0.000 2	0.000 2	0.074 6	0.409 10	0.000 2	0.000 1	0.000 1	0.152 5	0.051 2	0.000 2	0.598 3	0.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, Jian Zhang: Language-Assisted 3D Scene Understanding. arXiv23.12
Minkowski 34D	0.253 10	0.463 10	0.154 11	0.102 10	0.771 10	0.650 10	0.932 9	0.483 10	0.571 10	0.710 9	0.331 10	0.250 10	0.492 9	0.044 4	0.703 10	0.419 11	0.606 11	0.227 10	0.621 10	0.865 11	0.531 5	0.771 11	0.813 8	0.291 5	0.484 9	0.242 10	0.612 11	0.282 11	0.440 11	0.351 9	0.299 9	0.622 10	0.593 8	0.027 8	0.293 7	0.310 11	0.000 1	0.757 8	0.858 9	0.737 10	0.150 5	0.164 1	0.368 11	0.084 4	0.381 11	0.142 11	0.357 9	0.720 7	0.214 8	0.092 10	0.724 10	0.596 11	0.056 9	0.655 4	0.525 8	0.581 11	0.352 11	0.594 10	0.056 11	0.000 3	0.014 11	0.224 10	0.772 9	0.205 11	0.720 10	0.000 3	0.159 4	0.531 10	0.163 11	0.294 10	0.136 11	0.000 1	0.169 10	0.589 9	0.000 4	0.000 6	0.000 1	0.002 1	0.663 5	0.466 11	0.265 11	0.582 6	0.337 7	0.016 10	0.559 9	0.084 11	0.000 3	0.000 4	0.000 1	0.036 3	0.000 3	0.125 3	0.670 10	0.000 1	0.102 1	0.071 5	0.164 9	0.406 5	0.386 4	0.046 10	0.068 11	0.159 9	0.117 3	0.284 10	0.111 10	0.094 10	0.000 3	0.000 11	0.197 11	0.000 1	0.044 9	0.013 9	0.002 8	0.228 11	0.307 11	0.588 6	0.025 11	0.545 3	0.134 9	0.000 1	0.655 3	0.302 9	0.282 11	0.000 1	0.060 1	0.000 6	0.035 11	0.000 5	0.000 6	0.097 11	0.000 6	0.000 4	0.005 6	0.000 1	0.000 1	0.096 11	0.000 1	0.334 10	0.000 1	0.000 7	0.274 10	0.000 1	0.513 11	0.000 1	0.000 1	0.280 5	0.194 4	0.897 7	0.000 5	0.000 5	0.000 1	0.000 5	0.000 1	0.108 7	0.279 11	0.189 10	0.141 11	0.059 10	0.272 2	0.307 11	0.445 4	0.003 6	0.000 1	0.353 10	0.000 2	0.026 1	0.000 7	0.581 9	0.001 1	0.000 1	0.000 1	0.093 11	0.002 3	0.000 2	0.000 6	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
LGround	0.272 9	0.485 9	0.184 9	0.106 9	0.778 9	0.676 6	0.932 9	0.479 11	0.572 9	0.718 8	0.399 6	0.265 9	0.453 10	0.085 3	0.745 9	0.446 9	0.726 7	0.232 9	0.622 9	0.901 9	0.512 8	0.826 9	0.786 10	0.178 10	0.549 7	0.277 9	0.659 9	0.381 9	0.518 8	0.295 11	0.323 8	0.777 7	0.599 7	0.028 7	0.321 5	0.363 10	0.000 1	0.708 9	0.858 9	0.746 8	0.063 9	0.022 5	0.457 9	0.077 6	0.476 6	0.243 9	0.402 8	0.397 11	0.233 6	0.077 11	0.720 11	0.610 10	0.103 3	0.629 7	0.437 11	0.626 7	0.446 8	0.702 4	0.190 7	0.005 1	0.058 10	0.322 9	0.702 10	0.244 9	0.768 8	0.000 3	0.134 7	0.552 9	0.279 10	0.395 9	0.147 10	0.000 1	0.207 9	0.612 8	0.000 4	0.000 6	0.000 1	0.000 3	0.658 6	0.566 9	0.323 9	0.525 11	0.229 8	0.179 7	0.467 11	0.154 10	0.000 3	0.002 2	0.000 1	0.051 1	0.000 3	0.127 2	0.703 9	0.000 1	0.000 7	0.216 1	0.112 10	0.358 7	0.547 1	0.187 3	0.092 10	0.156 11	0.055 7	0.296 9	0.252 6	0.143 2	0.000 3	0.014 8	0.398 5	0.000 1	0.028 10	0.173 4	0.000 9	0.265 10	0.348 9	0.415 10	0.179 3	0.019 10	0.218 5	0.000 1	0.597 5	0.274 11	0.565 7	0.000 1	0.012 3	0.000 6	0.039 10	0.022 2	0.000 6	0.117 9	0.000 6	0.000 4	0.000 7	0.000 1	0.000 1	0.324 10	0.000 1	0.384 5	0.000 1	0.000 7	0.251 11	0.000 1	0.566 8	0.000 1	0.000 1	0.066 8	0.404 1	0.886 9	0.199 1	0.000 5	0.000 1	0.059 3	0.000 1	0.136 1	0.540 3	0.127 11	0.295 8	0.085 5	0.143 6	0.514 4	0.413 9	0.000 8	0.000 1	0.498 5	0.000 2	0.000 2	0.000 7	0.623 7	0.000 2	0.000 1	0.000 1	0.132 10	0.000 4	0.000 2	0.000 6	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild. arXiv

This table lists the benchmark results for the ScanNet200 3D semantic instance scenario.

Method	avg ap 25%	head ap 25%	common ap 25%	tail ap 25%	chair	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

LGround Inst.	0.314 3	0.529 3	0.225 3	0.155 3	0.810 3	0.625 3	0.798 3	0.940 2	0.372 3	0.217 3	0.484 3	0.000 3	0.927 3	0.528 2	0.826 5	0.694 2	0.605 3	1.000 1	0.731 2	0.846 3	0.716 3	0.350 2	0.589 5	0.123 4	0.857 4	0.457 2	0.578 3	0.376 4	0.183 2	0.765 3	0.800 3	0.000 4	0.278 4	0.500 2	0.000 3	0.659 2	0.569 4	1.000 1	0.093 3	0.000 3	0.539 3	0.010 3	0.578 5	0.378 4	0.571 2	1.000 1	0.337 3	0.252 1	0.530 5	0.814 3	0.000 4	0.744 5	0.743 3	0.746 3	0.346 3	0.863 3	0.067 3	0.000 3	0.400 3	0.167 3	0.667 3	0.488 4	1.000 1	0.000 1	0.208 4	0.783 3	0.166 4	0.375 2	0.071 5	0.000 2	0.200 1	0.607 4	0.000 3	0.000 2	0.000 1	0.000 2	1.000 1	0.500 1	0.517 1	0.716 4	0.221 2	0.000 4	0.706 3	0.085 5	0.000 2	0.000 3	0.000 3	0.077 4	0.000 1	0.063 3	0.278 3	0.000 3	0.000 3	0.500 2	0.083 3	0.181 5	0.515 2	0.286 3	0.144 1	0.219 2	0.042 1	0.582 4	0.400 3	0.000 2	0.000 1	0.000 5	0.305 2	0.000 1	0.000 4	0.036 3	0.000 1	0.413 3	0.500 2	0.533 5	0.250 2	0.200 2	0.500 1	0.000 1	1.000 1	0.472 1	1.000 1	0.000 1	0.000 4	0.000 3	0.250 1	0.000 3	0.000 3	0.333 3	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.600 3	0.000 1	0.594 2	0.000 1	0.000 3	0.500 3	0.000 1	0.647 5	0.000 1	0.000 1	0.429 3	0.333 2	0.500 5	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.069 3	0.696 1	0.050 5	0.556 3	0.031 5	0.042 5	0.750 1	0.250 4	0.000 2	0.000 1	0.630 1	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	0.000 2	0.400 2	0.000 2	0.000 2	0.000 2	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild.
Mask3D Scannet200	0.445 1	0.653 1	0.392 1	0.254 1	0.844 2	0.746 2	0.818 1	0.888 4	0.556 1	0.262 1	0.890 1	0.025 2	1.000 1	0.608 1	0.930 1	0.694 3	0.721 1	0.930 5	0.686 3	0.966 1	0.615 4	0.440 1	0.725 4	0.201 1	0.890 3	0.414 4	0.827 1	0.552 1	0.158 5	0.806 1	0.924 1	0.042 3	0.512 2	0.412 5	0.226 1	0.604 3	0.830 1	1.000 1	0.125 1	0.792 1	0.815 1	0.097 1	0.648 1	0.551 2	0.354 4	1.000 1	0.630 1	0.241 2	1.000 1	0.853 1	0.204 1	0.974 4	0.841 1	0.778 1	0.358 2	0.927 1	0.300 1	0.045 1	0.640 1	0.363 1	0.745 2	0.710 1	1.000 1	0.000 1	0.330 2	0.943 1	0.315 2	0.600 1	1.000 1	0.027 1	0.080 5	0.556 5	0.500 1	0.409 1	0.000 1	0.194 1	1.000 1	0.500 1	0.493 2	0.761 2	0.053 4	0.042 3	0.780 2	0.454 1	0.009 1	0.333 1	0.050 1	0.321 1	0.000 1	0.084 1	0.552 2	0.008 2	0.027 2	0.750 1	0.500 1	0.442 3	0.657 1	0.765 2	0.120 2	0.183 3	0.021 2	1.000 1	0.510 2	0.016 1	0.000 1	0.400 1	0.619 1	0.000 1	0.396 1	0.290 1	0.000 1	0.741 1	0.699 1	1.000 1	0.260 1	0.017 3	0.125 5	0.000 1	0.792 4	0.399 4	1.000 1	0.000 1	0.049 3	0.265 1	0.063 3	0.000 3	1.000 1	0.335 2	0.381 1	0.500 1	0.250 1	0.004 2	0.000 1	0.727 2	0.000 1	0.538 3	0.000 1	0.188 1	0.677 2	0.000 1	0.930 1	0.000 1	0.000 1	0.966 1	0.391 1	0.908 2	0.000 1	0.028 1	0.000 1	1.000 1	0.000 1	0.152 1	0.451 2	0.458 1	0.971 1	0.573 1	0.606 1	0.167 5	0.625 1	0.004 1	0.000 1	0.058 5	0.000 1	0.000 1	1.000 1	1.000 1	0.000 1	0.056 1	0.000 2	0.200 3	0.309 1	0.000 2	1.000 1	0.000 1
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
TD3D Scannet200	0.379 2	0.603 2	0.306 2	0.190 2	0.885 1	0.755 1	0.800 2	0.958 1	0.390 2	0.260 2	0.866 2	0.232 1	0.979 2	0.523 3	0.869 3	0.559 5	0.689 2	1.000 1	0.795 1	0.905 2	0.748 1	0.173 5	0.825 1	0.173 2	0.970 1	0.457 1	0.615 2	0.456 2	0.200 1	0.621 4	0.906 2	0.553 1	0.517 1	0.510 1	0.220 2	0.715 1	0.706 2	1.000 1	0.113 2	0.792 1	0.717 2	0.073 2	0.635 2	0.557 1	0.638 1	1.000 1	0.205 5	0.146 3	1.000 1	0.769 5	0.186 2	1.000 1	0.710 5	0.778 1	0.415 1	0.834 4	0.226 2	0.021 2	0.590 2	0.356 2	0.817 1	0.477 5	1.000 1	0.000 1	0.635 1	0.843 2	0.427 1	0.270 4	0.125 2	0.000 2	0.102 3	1.000 1	0.125 2	0.000 2	0.000 1	0.000 2	0.000 3	0.125 4	0.370 3	0.622 5	0.221 1	0.196 2	0.836 1	0.288 2	0.000 2	0.093 2	0.020 2	0.294 2	0.000 1	0.075 2	0.667 1	0.038 1	0.111 1	0.250 4	0.000 4	0.526 2	0.495 3	0.908 1	0.111 3	0.259 1	0.003 3	0.667 2	0.045 5	0.000 2	0.000 1	0.400 1	0.274 3	0.000 1	0.274 2	0.226 2	0.000 1	0.520 2	0.302 5	0.731 2	0.103 3	0.458 1	0.500 1	0.000 1	1.000 1	0.472 1	0.792 3	0.000 1	0.088 2	0.061 2	0.250 1	0.009 2	0.250 2	0.333 3	0.181 2	0.396 2	0.051 2	0.012 1	0.000 1	0.458 4	0.000 1	0.424 5	0.000 1	0.101 2	0.390 5	0.000 1	0.833 2	0.000 1	0.000 1	0.857 2	0.222 3	1.000 1	0.000 1	0.003 2	0.000 1	0.000 2	0.000 1	0.102 2	0.275 5	0.400 2	0.735 2	0.061 3	0.433 3	0.533 3	0.625 1	0.000 2	0.000 1	0.259 4	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	1.000 1	0.600 1	0.000 2	0.250 1	0.000 2	0.000 1
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
Minkowski 34D Inst.	0.280 4	0.488 4	0.192 5	0.124 4	0.804 4	0.518 4	0.772 5	0.904 3	0.337 5	0.191 4	0.443 4	0.000 3	0.861 4	0.502 4	0.868 4	0.669 4	0.587 4	0.997 3	0.467 5	0.828 5	0.732 2	0.342 3	0.745 3	0.119 5	0.918 2	0.404 5	0.419 4	0.398 3	0.172 3	0.618 5	0.743 4	0.167 2	0.077 5	0.500 2	0.000 3	0.568 4	0.506 5	1.000 1	0.044 4	0.000 3	0.502 4	0.010 4	0.593 4	0.284 5	0.305 5	0.903 5	0.213 4	0.142 4	0.981 3	0.790 4	0.000 4	1.000 1	0.715 4	0.538 5	0.346 4	0.830 5	0.067 3	0.000 3	0.400 3	0.074 4	0.333 4	0.551 2	1.000 1	0.000 1	0.292 3	0.777 4	0.118 5	0.317 3	0.100 4	0.000 2	0.191 2	0.648 3	0.000 3	0.000 2	0.000 1	0.000 2	0.000 3	0.500 1	0.213 5	0.825 1	0.021 5	0.333 1	0.648 5	0.098 4	0.000 2	0.000 3	0.000 3	0.077 3	0.000 1	0.000 5	0.150 5	0.000 3	0.000 3	0.000 5	0.225 2	0.281 4	0.447 4	0.000 5	0.090 4	0.148 4	0.000 4	0.479 5	0.542 1	0.000 2	0.000 1	0.200 3	0.131 5	0.000 1	0.250 3	0.000 4	0.000 1	0.159 5	0.396 4	0.677 3	0.021 4	0.000 4	0.500 1	0.000 1	1.000 1	0.442 3	0.125 5	0.000 1	0.000 4	0.000 3	0.000 4	0.333 1	0.000 3	0.528 1	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.200 5	0.000 1	0.516 4	0.000 1	0.000 3	0.500 3	0.000 1	0.833 2	0.000 1	0.000 1	0.286 4	0.083 4	0.750 3	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.059 5	0.445 3	0.200 3	0.535 4	0.070 2	0.167 4	0.385 4	0.375 3	0.000 2	0.000 1	0.333 3	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	0.000 2	0.200 3	0.000 2	0.000 2	0.000 2	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
CSC-Pretrain Inst.	0.275 5	0.466 5	0.218 4	0.110 5	0.783 5	0.383 5	0.783 4	0.829 5	0.367 4	0.168 5	0.305 5	0.000 3	0.661 5	0.413 5	0.869 2	0.719 1	0.546 5	0.997 3	0.685 4	0.841 4	0.555 5	0.277 4	0.768 2	0.132 3	0.779 5	0.448 3	0.364 5	0.212 5	0.161 4	0.768 2	0.692 5	0.000 4	0.395 3	0.500 2	0.000 3	0.450 5	0.591 3	1.000 1	0.020 5	0.000 3	0.423 5	0.007 5	0.625 3	0.420 3	0.505 3	1.000 1	0.353 2	0.119 5	0.571 4	0.819 2	0.014 3	1.000 1	0.774 2	0.689 4	0.311 5	0.866 2	0.067 3	0.000 3	0.400 3	0.000 5	0.278 5	0.501 3	1.000 1	0.000 1	0.162 5	0.584 5	0.286 3	0.206 5	0.125 2	0.000 2	0.084 4	0.649 2	0.000 3	0.000 2	0.000 1	0.000 2	0.000 3	0.125 4	0.312 4	0.727 3	0.221 2	0.000 4	0.667 4	0.114 3	0.000 2	0.000 3	0.000 3	0.065 5	0.000 1	0.004 4	0.278 3	0.000 3	0.000 3	0.500 2	0.000 4	0.571 1	0.000 5	0.250 4	0.019 5	0.145 5	0.000 4	0.667 2	0.200 4	0.000 2	0.000 1	0.200 3	0.258 4	0.000 1	0.000 4	0.000 4	0.000 1	0.369 4	0.429 3	0.613 4	0.000 5	0.000 4	0.500 1	0.000 1	0.500 5	0.333 5	0.500 4	0.000 1	0.106 1	0.000 3	0.000 4	0.000 3	0.000 3	0.333 3	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.918 1	0.000 1	0.638 1	0.000 1	0.000 3	0.750 1	0.000 1	0.833 2	0.000 1	0.000 1	0.143 5	0.000 5	0.750 3	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.063 4	0.377 4	0.200 3	0.222 5	0.055 4	0.500 2	0.677 2	0.250 4	0.000 2	0.000 1	0.500 2	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	0.000 2	0.115 5	0.000 2	0.000 2	0.000 2	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021

ScanNet Benchmark

This table lists the benchmark results for the 3D semantic label scenario.

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

PTv3 ScanNet	0.794 1	0.941 3	0.813 18	0.851 7	0.782 6	0.890 2	0.597 1	0.916 2	0.696 8	0.713 3	0.979 1	0.635 1	0.384 2	0.793 2	0.907 8	0.821 4	0.790 30	0.696 11	0.967 3	0.903 1	0.805 1
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
PonderV2	0.785 2	0.978 1	0.800 26	0.833 22	0.788 4	0.853 16	0.545 16	0.910 5	0.713 1	0.705 4	0.979 1	0.596 7	0.390 1	0.769 11	0.832 41	0.821 4	0.792 29	0.730 1	0.975 1	0.897 4	0.785 4
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
Mix3D	0.781 3	0.964 2	0.855 1	0.843 16	0.781 7	0.858 12	0.575 6	0.831 32	0.685 14	0.714 2	0.979 1	0.594 8	0.310 26	0.801 1	0.892 16	0.841 2	0.819 4	0.723 4	0.940 13	0.887 6	0.725 23
Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann: Mix3D: Out-of-Context Data Augmentation for 3D Scenes. 3DV 2021 (Oral)
Swin3D	0.779 4	0.861 20	0.818 14	0.836 19	0.790 3	0.875 4	0.576 5	0.905 6	0.704 5	0.739 1	0.969 10	0.611 2	0.349 10	0.756 21	0.958 1	0.702 44	0.805 14	0.708 7	0.916 31	0.898 3	0.801 2

TTT-KD	0.773 5	0.646 90	0.818 14	0.809 34	0.774 9	0.878 3	0.581 2	0.943 1	0.687 12	0.704 5	0.978 4	0.607 5	0.336 15	0.775 8	0.912 6	0.838 3	0.823 2	0.694 12	0.967 3	0.899 2	0.794 3
Lisa Weijler, Muhammad Jehanzeb Mirza, Leon Sick, Can Ekkazan, Pedro Hermosilla: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models.
ResLFE_HDS	0.772 6	0.939 4	0.824 6	0.854 6	0.771 10	0.840 30	0.564 10	0.900 8	0.686 13	0.677 11	0.961 16	0.537 30	0.348 11	0.769 11	0.903 10	0.785 10	0.815 6	0.676 21	0.939 14	0.880 11	0.772 8

PPT-SpUNet-Joint	0.766 7	0.932 5	0.794 32	0.829 24	0.751 22	0.854 14	0.540 20	0.903 7	0.630 33	0.672 14	0.963 14	0.565 21	0.357 8	0.788 3	0.900 12	0.737 25	0.802 15	0.685 16	0.950 7	0.887 6	0.780 5
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer	0.766 7	0.925 7	0.808 22	0.849 9	0.786 5	0.846 26	0.566 9	0.876 14	0.690 10	0.674 13	0.960 17	0.576 17	0.226 66	0.753 23	0.904 9	0.777 12	0.815 6	0.722 5	0.923 27	0.877 13	0.776 7
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
CU-Hybrid Net	0.764 9	0.924 8	0.819 12	0.840 17	0.757 17	0.853 16	0.580 3	0.848 25	0.709 3	0.643 23	0.958 20	0.587 12	0.295 32	0.753 23	0.884 20	0.758 19	0.815 6	0.725 3	0.927 24	0.867 21	0.743 14

OccuSeg+Semantic	0.764 9	0.758 58	0.796 30	0.839 18	0.746 24	0.907 1	0.562 11	0.850 24	0.680 16	0.672 14	0.978 4	0.610 3	0.335 17	0.777 6	0.819 44	0.847 1	0.830 1	0.691 14	0.972 2	0.885 8	0.727 21

O-CNN	0.762 11	0.924 8	0.823 7	0.844 15	0.770 11	0.852 18	0.577 4	0.847 27	0.711 2	0.640 27	0.958 20	0.592 9	0.217 72	0.762 16	0.888 17	0.758 19	0.813 10	0.726 2	0.932 22	0.868 20	0.744 13
Peng-Shuai Wang, Yang Liu, Yu-Xiao Guo, Chun-Yu Sun, Xin Tong: O-CNN: Octree-based Convolutional Neural Networks for 3D Shape Analysis. SIGGRAPH 2017
DTC	0.757 12	0.843 26	0.820 10	0.847 12	0.791 2	0.862 10	0.511 32	0.870 16	0.707 4	0.652 19	0.954 34	0.604 6	0.279 43	0.760 17	0.942 2	0.734 26	0.766 43	0.701 10	0.884 53	0.874 18	0.736 15

OA-CNN-L_ScanNet20	0.756 13	0.783 44	0.826 5	0.858 4	0.776 8	0.837 33	0.548 15	0.896 11	0.649 25	0.675 12	0.962 15	0.586 13	0.335 17	0.771 10	0.802 48	0.770 15	0.787 32	0.691 14	0.936 17	0.880 11	0.761 10

ConDaFormer	0.755 14	0.927 6	0.822 8	0.836 19	0.801 1	0.849 21	0.516 30	0.864 21	0.651 24	0.680 10	0.958 20	0.584 15	0.282 40	0.759 19	0.855 31	0.728 28	0.802 15	0.678 18	0.880 58	0.873 19	0.756 11
Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Guisong Xia, Dacheng Tao: ConDaFormer : Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding. Neurips, 2023
PNE	0.755 14	0.786 42	0.835 4	0.834 21	0.758 15	0.849 21	0.570 8	0.836 31	0.648 26	0.668 16	0.978 4	0.581 16	0.367 6	0.683 34	0.856 29	0.804 6	0.801 19	0.678 18	0.961 5	0.889 5	0.716 28
P. Hermosilla: Point Neighborhood Embeddings.
DMF-Net	0.752 16	0.906 12	0.793 34	0.802 40	0.689 39	0.825 45	0.556 12	0.867 17	0.681 15	0.602 43	0.960 17	0.555 26	0.365 7	0.779 5	0.859 26	0.747 22	0.795 26	0.717 6	0.917 30	0.856 29	0.764 9
C.Yang, Y.Yan, W.Zhao, J.Ye, X.Yang, A.Hussain, B.Dong, K.Huang: Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic Segmentation. ICONIP 2023
PointTransformerV2	0.752 16	0.742 66	0.809 21	0.872 1	0.758 15	0.860 11	0.552 13	0.891 12	0.610 40	0.687 6	0.960 17	0.559 24	0.304 29	0.766 14	0.926 4	0.767 16	0.797 22	0.644 32	0.942 11	0.876 16	0.722 25
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao: Point Transformer V2: Grouped Vector Attention and Partition-based Pooling. NeurIPS 2022
PointConvFormer	0.749 18	0.793 40	0.790 35	0.807 36	0.750 23	0.856 13	0.524 26	0.881 13	0.588 52	0.642 26	0.977 8	0.591 10	0.274 46	0.781 4	0.929 3	0.804 6	0.796 23	0.642 33	0.947 9	0.885 8	0.715 29
Wenxuan Wu, Qi Shan, Li Fuxin: PointConvFormer: Revenge of the Point-based Convolution.
BPNet	0.749 18	0.909 10	0.818 14	0.811 32	0.752 20	0.839 32	0.485 46	0.842 28	0.673 17	0.644 22	0.957 24	0.528 36	0.305 28	0.773 9	0.859 26	0.788 8	0.818 5	0.693 13	0.916 31	0.856 29	0.723 24
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MSP	0.748 20	0.623 93	0.804 24	0.859 3	0.745 25	0.824 47	0.501 36	0.912 4	0.690 10	0.685 8	0.956 25	0.567 20	0.320 23	0.768 13	0.918 5	0.720 33	0.802 15	0.676 21	0.921 28	0.881 10	0.779 6

StratifiedFormer	0.747 21	0.901 13	0.803 25	0.845 14	0.757 17	0.846 26	0.512 31	0.825 35	0.696 8	0.645 21	0.956 25	0.576 17	0.262 57	0.744 28	0.861 25	0.742 23	0.770 41	0.705 8	0.899 43	0.860 26	0.734 16
Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia: Stratified Transformer for 3D Point Cloud Segmentation. CVPR 2022
VMNet	0.746 22	0.870 18	0.838 2	0.858 4	0.729 30	0.850 20	0.501 36	0.874 15	0.587 53	0.658 18	0.956 25	0.564 22	0.299 30	0.765 15	0.900 12	0.716 36	0.812 11	0.631 38	0.939 14	0.858 27	0.709 30
Zeyu HU, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai: VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation. ICCV 2021 (Oral)
Virtual MVFusion	0.746 22	0.771 52	0.819 12	0.848 11	0.702 36	0.865 9	0.397 84	0.899 9	0.699 6	0.664 17	0.948 54	0.588 11	0.330 19	0.746 27	0.851 35	0.764 17	0.796 23	0.704 9	0.935 18	0.866 22	0.728 19
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
Retro-FPN	0.744 24	0.842 27	0.800 26	0.767 54	0.740 26	0.836 35	0.541 18	0.914 3	0.672 18	0.626 31	0.958 20	0.552 27	0.272 48	0.777 6	0.886 19	0.696 45	0.801 19	0.674 24	0.941 12	0.858 27	0.717 26
Peng Xiang, Xin Wen, Yu-Shen Liu, Hui Zhang, Yi Fang, Zhizhong Han: Retrospective Feature Pyramid Network for Point Cloud Semantic Segmentation. ICCV 2023
EQ-Net	0.743 25	0.620 94	0.799 29	0.849 9	0.730 29	0.822 49	0.493 43	0.897 10	0.664 19	0.681 9	0.955 28	0.562 23	0.378 3	0.760 17	0.903 10	0.738 24	0.801 19	0.673 25	0.907 35	0.877 13	0.745 12
Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya JIa: A Unified Query-based Paradigm for Point Cloud Understanding. CVPR 2022
SAT	0.742 26	0.860 21	0.765 48	0.819 27	0.769 12	0.848 23	0.533 22	0.829 33	0.663 20	0.631 30	0.955 28	0.586 13	0.274 46	0.753 23	0.896 14	0.729 27	0.760 49	0.666 27	0.921 28	0.855 31	0.733 17

LRPNet	0.742 26	0.816 35	0.806 23	0.807 36	0.752 20	0.828 43	0.575 6	0.839 30	0.699 6	0.637 28	0.954 34	0.520 39	0.320 23	0.755 22	0.834 39	0.760 18	0.772 38	0.676 21	0.915 33	0.862 24	0.717 26

LargeKernel3D	0.739 28	0.909 10	0.820 10	0.806 38	0.740 26	0.852 18	0.545 16	0.826 34	0.594 51	0.643 23	0.955 28	0.541 29	0.263 56	0.723 32	0.858 28	0.775 14	0.767 42	0.678 18	0.933 20	0.848 36	0.694 35
Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia: LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs. CVPR 2023
MinkowskiNet	0.736 29	0.859 22	0.818 14	0.832 23	0.709 34	0.840 30	0.521 28	0.853 23	0.660 22	0.643 23	0.951 44	0.544 28	0.286 38	0.731 30	0.893 15	0.675 54	0.772 38	0.683 17	0.874 65	0.852 34	0.727 21
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
RPN	0.736 29	0.776 48	0.790 35	0.851 7	0.754 19	0.854 14	0.491 45	0.866 19	0.596 50	0.686 7	0.955 28	0.536 31	0.342 13	0.624 49	0.869 22	0.787 9	0.802 15	0.628 39	0.927 24	0.875 17	0.704 32

IPCA	0.731 31	0.890 14	0.837 3	0.864 2	0.726 31	0.873 5	0.530 25	0.824 36	0.489 86	0.647 20	0.978 4	0.609 4	0.336 15	0.624 49	0.733 57	0.758 19	0.776 36	0.570 64	0.949 8	0.877 13	0.728 19

SparseConvNet	0.725 32	0.647 89	0.821 9	0.846 13	0.721 32	0.869 6	0.533 22	0.754 57	0.603 46	0.614 35	0.955 28	0.572 19	0.325 21	0.710 33	0.870 21	0.724 31	0.823 2	0.628 39	0.934 19	0.865 23	0.683 38

PointTransformer++	0.725 32	0.727 74	0.811 20	0.819 27	0.765 13	0.841 29	0.502 35	0.814 41	0.621 36	0.623 33	0.955 28	0.556 25	0.284 39	0.620 51	0.866 23	0.781 11	0.757 53	0.648 30	0.932 22	0.862 24	0.709 30

MatchingNet	0.724 34	0.812 37	0.812 19	0.810 33	0.735 28	0.834 37	0.495 42	0.860 22	0.572 60	0.602 43	0.954 34	0.512 41	0.280 42	0.757 20	0.845 37	0.725 30	0.780 34	0.606 49	0.937 16	0.851 35	0.700 34

INS-Conv-semantic	0.717 35	0.751 61	0.759 51	0.812 31	0.704 35	0.868 7	0.537 21	0.842 28	0.609 42	0.608 39	0.953 38	0.534 33	0.293 33	0.616 52	0.864 24	0.719 35	0.793 27	0.640 34	0.933 20	0.845 40	0.663 44

PointMetaBase	0.714 36	0.835 28	0.785 37	0.821 25	0.684 41	0.846 26	0.531 24	0.865 20	0.614 37	0.596 47	0.953 38	0.500 44	0.246 62	0.674 35	0.888 17	0.692 46	0.764 45	0.624 41	0.849 80	0.844 41	0.675 40

contrastBoundary	0.705 37	0.769 55	0.775 42	0.809 34	0.687 40	0.820 52	0.439 72	0.812 42	0.661 21	0.591 49	0.945 62	0.515 40	0.171 90	0.633 46	0.856 29	0.720 33	0.796 23	0.668 26	0.889 50	0.847 37	0.689 36
Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao: Contrastive Boundary Learning for Point Cloud Segmentation. CVPR2022
ClickSeg_Semantic	0.703 38	0.774 50	0.800 26	0.793 45	0.760 14	0.847 25	0.471 50	0.802 45	0.463 93	0.634 29	0.968 12	0.491 47	0.271 50	0.726 31	0.910 7	0.706 40	0.815 6	0.551 76	0.878 59	0.833 42	0.570 76

RFCR	0.702 39	0.889 15	0.745 62	0.813 30	0.672 44	0.818 56	0.493 43	0.815 40	0.623 34	0.610 37	0.947 56	0.470 56	0.249 61	0.594 55	0.848 36	0.705 41	0.779 35	0.646 31	0.892 48	0.823 48	0.611 59
Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma: Omni-Supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning. CVPR2021
One Thing One Click	0.701 40	0.825 32	0.796 30	0.723 61	0.716 33	0.832 39	0.433 74	0.816 38	0.634 31	0.609 38	0.969 10	0.418 82	0.344 12	0.559 67	0.833 40	0.715 37	0.808 13	0.560 70	0.902 40	0.847 37	0.680 39

JSENet	0.699 41	0.881 17	0.762 49	0.821 25	0.667 45	0.800 68	0.522 27	0.792 48	0.613 38	0.607 40	0.935 82	0.492 46	0.205 77	0.576 60	0.853 33	0.691 48	0.758 51	0.652 29	0.872 68	0.828 45	0.649 48
Zeyu HU, Mingmin Zhen, Xuyang BAI, Hongbo Fu, Chiew-lan Tai: JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D Point Clouds. ECCV 2020
One-Thing-One-Click	0.693 42	0.743 65	0.794 32	0.655 84	0.684 41	0.822 49	0.497 41	0.719 67	0.622 35	0.617 34	0.977 8	0.447 69	0.339 14	0.750 26	0.664 73	0.703 43	0.790 30	0.596 54	0.946 10	0.855 31	0.647 49
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
PicassoNet-II	0.692 43	0.732 70	0.772 43	0.786 46	0.677 43	0.866 8	0.517 29	0.848 25	0.509 79	0.626 31	0.952 42	0.536 31	0.225 68	0.545 73	0.704 64	0.689 51	0.810 12	0.564 69	0.903 39	0.854 33	0.729 18
Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian: Geometric feature learning for 3D meshes.
Feature_GeometricNet	0.690 44	0.884 16	0.754 55	0.795 43	0.647 52	0.818 56	0.422 76	0.802 45	0.612 39	0.604 41	0.945 62	0.462 59	0.189 85	0.563 66	0.853 33	0.726 29	0.765 44	0.632 37	0.904 37	0.821 51	0.606 63
Kangcheng Liu, Ben M. Chen: https://arxiv.org/abs/2012.09439. arXiv Preprint
FusionNet	0.688 45	0.704 79	0.741 66	0.754 58	0.656 47	0.829 41	0.501 36	0.741 62	0.609 42	0.548 57	0.950 48	0.522 38	0.371 4	0.633 46	0.756 52	0.715 37	0.771 40	0.623 42	0.861 76	0.814 54	0.658 45
Feihu Zhang, Jin Fang, Benjamin Wah, Philip Torr: Deep FusionNet for Point Cloud Semantic Segmentation. ECCV 2020
Feature-Geometry Net	0.685 46	0.866 19	0.748 59	0.819 27	0.645 54	0.794 71	0.450 62	0.802 45	0.587 53	0.604 41	0.945 62	0.464 58	0.201 80	0.554 69	0.840 38	0.723 32	0.732 63	0.602 52	0.907 35	0.822 50	0.603 66

KP-FCNN	0.684 47	0.847 25	0.758 53	0.784 48	0.647 52	0.814 59	0.473 49	0.772 51	0.605 44	0.594 48	0.935 82	0.450 67	0.181 88	0.587 56	0.805 47	0.690 49	0.785 33	0.614 45	0.882 55	0.819 52	0.632 55
H. Thomas, C. Qi, J. Deschaud, B. Marcotegui, F. Goulette, L. Guibas.: KPConv: Flexible and Deformable Convolution for Point Clouds. ICCV 2019
VACNN++	0.684 47	0.728 73	0.757 54	0.776 51	0.690 37	0.804 66	0.464 55	0.816 38	0.577 59	0.587 50	0.945 62	0.508 43	0.276 45	0.671 36	0.710 62	0.663 59	0.750 57	0.589 59	0.881 56	0.832 44	0.653 47

DGNet	0.684 47	0.712 78	0.784 38	0.782 50	0.658 46	0.835 36	0.499 40	0.823 37	0.641 28	0.597 46	0.950 48	0.487 49	0.281 41	0.575 61	0.619 77	0.647 67	0.764 45	0.620 44	0.871 71	0.846 39	0.688 37

PointContrast_LA_SEM	0.683 50	0.757 59	0.784 38	0.786 46	0.639 56	0.824 47	0.408 79	0.775 50	0.604 45	0.541 59	0.934 86	0.532 34	0.269 52	0.552 70	0.777 50	0.645 70	0.793 27	0.640 34	0.913 34	0.824 47	0.671 41

Superpoint Network	0.683 50	0.851 24	0.728 70	0.800 42	0.653 49	0.806 64	0.468 52	0.804 43	0.572 60	0.602 43	0.946 59	0.453 66	0.239 65	0.519 78	0.822 42	0.689 51	0.762 48	0.595 56	0.895 46	0.827 46	0.630 56

VI-PointConv	0.676 52	0.770 54	0.754 55	0.783 49	0.621 60	0.814 59	0.552 13	0.758 55	0.571 62	0.557 55	0.954 34	0.529 35	0.268 54	0.530 76	0.682 68	0.675 54	0.719 66	0.603 51	0.888 51	0.833 42	0.665 43
Xingyi Li, Wenxuan Wu, Xiaoli Z. Fern, Li Fuxin: The Devils in the Point Clouds: Studying the Robustness of Point Cloud Convolutions.
ROSMRF3D	0.673 53	0.789 41	0.748 59	0.763 56	0.635 58	0.814 59	0.407 81	0.747 59	0.581 57	0.573 52	0.950 48	0.484 50	0.271 50	0.607 53	0.754 53	0.649 64	0.774 37	0.596 54	0.883 54	0.823 48	0.606 63

SALANet	0.670 54	0.816 35	0.770 46	0.768 53	0.652 50	0.807 63	0.451 59	0.747 59	0.659 23	0.545 58	0.924 92	0.473 55	0.149 100	0.571 63	0.811 46	0.635 73	0.746 58	0.623 42	0.892 48	0.794 67	0.570 76

O3DSeg	0.668 55	0.822 33	0.771 45	0.496 104	0.651 51	0.833 38	0.541 18	0.761 54	0.555 68	0.611 36	0.966 13	0.489 48	0.370 5	0.388 98	0.580 80	0.776 13	0.751 55	0.570 64	0.956 6	0.817 53	0.646 50

PointConv	0.666 56	0.781 45	0.759 51	0.699 69	0.644 55	0.822 49	0.475 48	0.779 49	0.564 65	0.504 75	0.953 38	0.428 76	0.203 79	0.586 58	0.754 53	0.661 60	0.753 54	0.588 60	0.902 40	0.813 56	0.642 51
Wenxuan Wu, Zhongang Qi, Li Fuxin: PointConv: Deep Convolutional Networks on 3D Point Clouds. CVPR 2019
PointASNL	0.666 56	0.703 80	0.781 40	0.751 60	0.655 48	0.830 40	0.471 50	0.769 52	0.474 89	0.537 61	0.951 44	0.475 54	0.279 43	0.635 44	0.698 67	0.675 54	0.751 55	0.553 75	0.816 87	0.806 58	0.703 33
Xu Yan, Chaoda Zheng, Zhen Li, Sheng Wang, Shuguang Cui: PointASNL: Robust Point Clouds Processing using Nonlocal Neural Networks with Adaptive Sampling. CVPR 2020
PPCNN++	0.663 58	0.746 63	0.708 73	0.722 62	0.638 57	0.820 52	0.451 59	0.566 95	0.599 48	0.541 59	0.950 48	0.510 42	0.313 25	0.648 41	0.819 44	0.616 78	0.682 81	0.590 58	0.869 72	0.810 57	0.656 46
Pyunghwan Ahn, Juyoung Yang, Eojindl Yi, Chanho Lee, Junmo Kim: Projection-based Point Convolution for Efficient Point Cloud Segmentation. IEEE Access
MVF-GNN	0.658 59	0.558 101	0.751 57	0.655 84	0.690 37	0.722 93	0.453 58	0.867 17	0.579 58	0.576 51	0.893 104	0.523 37	0.293 33	0.733 29	0.571 82	0.692 46	0.659 88	0.606 49	0.875 62	0.804 60	0.668 42

DCM-Net	0.658 59	0.778 46	0.702 76	0.806 38	0.619 61	0.813 62	0.468 52	0.693 75	0.494 82	0.524 67	0.941 74	0.449 68	0.298 31	0.510 80	0.821 43	0.675 54	0.727 65	0.568 67	0.826 85	0.803 61	0.637 53
Jonas Schult, Francis Engelmann, Theodora Kontogianni, Bastian Leibe: DualConvMesh-Net: Joint Geodesic and Euclidean Convolutions on 3D Meshes. CVPR 2020 [Oral]
HPGCNN	0.656 61	0.698 82	0.743 64	0.650 86	0.564 78	0.820 52	0.505 34	0.758 55	0.631 32	0.479 79	0.945 62	0.480 52	0.226 66	0.572 62	0.774 51	0.690 49	0.735 61	0.614 45	0.853 79	0.776 82	0.597 69
Jisheng Dang, Qingyong Hu, Yulan Guo, Jun Yang: HPGCNN.
SAFNet-seg	0.654 62	0.752 60	0.734 68	0.664 82	0.583 73	0.815 58	0.399 83	0.754 57	0.639 29	0.535 63	0.942 72	0.470 56	0.309 27	0.665 37	0.539 84	0.650 63	0.708 71	0.635 36	0.857 78	0.793 69	0.642 51
Linqing Zhao, Jiwen Lu, Jie Zhou: Similarity-Aware Fusion Network for 3D Semantic Segmentation. IROS 2021
RandLA-Net	0.645 63	0.778 46	0.731 69	0.699 69	0.577 74	0.829 41	0.446 64	0.736 63	0.477 88	0.523 69	0.945 62	0.454 63	0.269 52	0.484 88	0.749 56	0.618 76	0.738 59	0.599 53	0.827 84	0.792 72	0.621 58

PointConv-SFPN	0.641 64	0.776 48	0.703 75	0.721 63	0.557 81	0.826 44	0.451 59	0.672 80	0.563 66	0.483 78	0.943 71	0.425 79	0.162 95	0.644 42	0.726 58	0.659 61	0.709 70	0.572 63	0.875 62	0.786 77	0.559 82

MVPNet	0.641 64	0.831 29	0.715 71	0.671 79	0.590 69	0.781 77	0.394 85	0.679 77	0.642 27	0.553 56	0.937 79	0.462 59	0.256 58	0.649 40	0.406 98	0.626 74	0.691 78	0.666 27	0.877 60	0.792 72	0.608 62
Maximilian Jaritz, Jiayuan Gu, Hao Su: Multi-view PointNet for 3D Scene Understanding. GMDL Workshop, ICCV 2019
PointMRNet	0.640 66	0.717 77	0.701 77	0.692 72	0.576 75	0.801 67	0.467 54	0.716 68	0.563 66	0.459 85	0.953 38	0.429 75	0.169 92	0.581 59	0.854 32	0.605 79	0.710 68	0.550 77	0.894 47	0.793 69	0.575 74

FPConv	0.639 67	0.785 43	0.760 50	0.713 67	0.603 64	0.798 69	0.392 86	0.534 100	0.603 46	0.524 67	0.948 54	0.457 61	0.250 60	0.538 74	0.723 60	0.598 83	0.696 76	0.614 45	0.872 68	0.799 62	0.567 79
Yiqun Lin, Zizheng Yan, Haibin Huang, Dong Du, Ligang Liu, Shuguang Cui, Xiaoguang Han: FPConv: Learning Local Flattening for Point Convolution. CVPR 2020
PD-Net	0.638 68	0.797 39	0.769 47	0.641 92	0.590 69	0.820 52	0.461 56	0.537 99	0.637 30	0.536 62	0.947 56	0.388 89	0.206 76	0.656 38	0.668 71	0.647 67	0.732 63	0.585 61	0.868 73	0.793 69	0.473 102

PointSPNet	0.637 69	0.734 69	0.692 84	0.714 66	0.576 75	0.797 70	0.446 64	0.743 61	0.598 49	0.437 90	0.942 72	0.403 85	0.150 99	0.626 48	0.800 49	0.649 64	0.697 75	0.557 73	0.846 81	0.777 81	0.563 80

SConv	0.636 70	0.830 30	0.697 80	0.752 59	0.572 77	0.780 79	0.445 66	0.716 68	0.529 72	0.530 64	0.951 44	0.446 70	0.170 91	0.507 83	0.666 72	0.636 72	0.682 81	0.541 83	0.886 52	0.799 62	0.594 70

Supervoxel-CNN	0.635 71	0.656 87	0.711 72	0.719 64	0.613 62	0.757 88	0.444 69	0.765 53	0.534 71	0.566 53	0.928 90	0.478 53	0.272 48	0.636 43	0.531 86	0.664 58	0.645 92	0.508 90	0.864 75	0.792 72	0.611 59

joint point-based	0.634 72	0.614 95	0.778 41	0.667 81	0.633 59	0.825 45	0.420 77	0.804 43	0.467 91	0.561 54	0.951 44	0.494 45	0.291 35	0.566 64	0.458 93	0.579 89	0.764 45	0.559 72	0.838 82	0.814 54	0.598 68
Hung-Yueh Chiang, Yen-Liang Lin, Yueh-Cheng Liu, Winston H. Hsu: A Unified Point-Based Framework for 3D Segmentation. 3DV 2019
PointMTL	0.632 73	0.731 71	0.688 87	0.675 76	0.591 68	0.784 76	0.444 69	0.565 96	0.610 40	0.492 76	0.949 52	0.456 62	0.254 59	0.587 56	0.706 63	0.599 82	0.665 87	0.612 48	0.868 73	0.791 75	0.579 73

3DSM_DMMF	0.631 74	0.626 92	0.745 62	0.801 41	0.607 63	0.751 89	0.506 33	0.729 66	0.565 64	0.491 77	0.866 107	0.434 71	0.197 83	0.595 54	0.630 76	0.709 39	0.705 73	0.560 70	0.875 62	0.740 92	0.491 97

PointNet2-SFPN	0.631 74	0.771 52	0.692 84	0.672 77	0.524 86	0.837 33	0.440 71	0.706 73	0.538 70	0.446 87	0.944 68	0.421 81	0.219 71	0.552 70	0.751 55	0.591 85	0.737 60	0.543 82	0.901 42	0.768 84	0.557 83

APCF-Net	0.631 74	0.742 66	0.687 89	0.672 77	0.557 81	0.792 74	0.408 79	0.665 81	0.545 69	0.508 72	0.952 42	0.428 76	0.186 86	0.634 45	0.702 65	0.620 75	0.706 72	0.555 74	0.873 66	0.798 64	0.581 72
Haojia, Lin: Adaptive Pyramid Context Fusion for Point Cloud Perception. GRSL
FusionAwareConv	0.630 77	0.604 97	0.741 66	0.766 55	0.590 69	0.747 90	0.501 36	0.734 64	0.503 81	0.527 65	0.919 96	0.454 63	0.323 22	0.550 72	0.420 97	0.678 53	0.688 79	0.544 80	0.896 45	0.795 66	0.627 57
Jiazhao Zhang, Chenyang Zhu, Lintao Zheng, Kai Xu: Fusion-Aware Point Convolution for Online Semantic 3D Scene Segmentation. CVPR 2020
DenSeR	0.628 78	0.800 38	0.625 100	0.719 64	0.545 83	0.806 64	0.445 66	0.597 89	0.448 96	0.519 70	0.938 78	0.481 51	0.328 20	0.489 87	0.499 91	0.657 62	0.759 50	0.592 57	0.881 56	0.797 65	0.634 54

SegGroup_sem	0.627 79	0.818 34	0.747 61	0.701 68	0.602 65	0.764 85	0.385 90	0.629 86	0.490 84	0.508 72	0.931 89	0.409 84	0.201 80	0.564 65	0.725 59	0.618 76	0.692 77	0.539 84	0.873 66	0.794 67	0.548 86
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
SIConv	0.625 80	0.830 30	0.694 82	0.757 57	0.563 79	0.772 83	0.448 63	0.647 84	0.520 75	0.509 71	0.949 52	0.431 74	0.191 84	0.496 85	0.614 78	0.647 67	0.672 85	0.535 86	0.876 61	0.783 78	0.571 75

dtc_net	0.625 80	0.703 80	0.751 57	0.794 44	0.535 84	0.848 23	0.480 47	0.676 79	0.528 73	0.469 82	0.944 68	0.454 63	0.004 113	0.464 90	0.636 75	0.704 42	0.758 51	0.548 79	0.924 26	0.787 76	0.492 96

HPEIN	0.618 82	0.729 72	0.668 90	0.647 88	0.597 67	0.766 84	0.414 78	0.680 76	0.520 75	0.525 66	0.946 59	0.432 72	0.215 73	0.493 86	0.599 79	0.638 71	0.617 97	0.570 64	0.897 44	0.806 58	0.605 65
Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi-Wing Fu, Jiaya Jia: Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation. ICCV 2019
SPH3D-GCN	0.610 83	0.858 23	0.772 43	0.489 105	0.532 85	0.792 74	0.404 82	0.643 85	0.570 63	0.507 74	0.935 82	0.414 83	0.046 110	0.510 80	0.702 65	0.602 81	0.705 73	0.549 78	0.859 77	0.773 83	0.534 89
Huan Lei, Naveed Akhtar, and Ajmal Mian: Spherical Kernel for Efficient Graph Convolution on 3D Point Clouds. TPAMI 2020
AttAN	0.609 84	0.760 57	0.667 91	0.649 87	0.521 87	0.793 72	0.457 57	0.648 83	0.528 73	0.434 92	0.947 56	0.401 86	0.153 98	0.454 91	0.721 61	0.648 66	0.717 67	0.536 85	0.904 37	0.765 85	0.485 98
Gege Zhang, Qinghua Ma, Licheng Jiao, Fang Liu and Qigong Sun: AttAN: Attention Adversarial Networks for 3D Point Cloud Semantic Segmentation. IJCAI2020
wsss-transformer	0.600 85	0.634 91	0.743 64	0.697 71	0.601 66	0.781 77	0.437 73	0.585 92	0.493 83	0.446 87	0.933 87	0.394 87	0.011 112	0.654 39	0.661 74	0.603 80	0.733 62	0.526 87	0.832 83	0.761 87	0.480 99

LAP-D	0.594 86	0.720 75	0.692 84	0.637 93	0.456 97	0.773 82	0.391 88	0.730 65	0.587 53	0.445 89	0.940 76	0.381 90	0.288 36	0.434 94	0.453 95	0.591 85	0.649 90	0.581 62	0.777 91	0.749 91	0.610 61

DPC	0.592 87	0.720 75	0.700 78	0.602 97	0.480 93	0.762 87	0.380 91	0.713 71	0.585 56	0.437 90	0.940 76	0.369 92	0.288 36	0.434 94	0.509 90	0.590 87	0.639 95	0.567 68	0.772 93	0.755 89	0.592 71
Francis Engelmann, Theodora Kontogianni, Bastian Leibe: Dilated Point Convolutions: On the Receptive Field Size of Point Convolutions on 3D Point Clouds. ICRA 2020
CCRFNet	0.589 88	0.766 56	0.659 95	0.683 74	0.470 96	0.740 92	0.387 89	0.620 88	0.490 84	0.476 80	0.922 94	0.355 95	0.245 63	0.511 79	0.511 89	0.571 90	0.643 93	0.493 94	0.872 68	0.762 86	0.600 67

ROSMRF	0.580 89	0.772 51	0.707 74	0.681 75	0.563 79	0.764 85	0.362 93	0.515 101	0.465 92	0.465 84	0.936 81	0.427 78	0.207 75	0.438 92	0.577 81	0.536 93	0.675 84	0.486 95	0.723 99	0.779 79	0.524 92

SD-DETR	0.576 90	0.746 63	0.609 104	0.445 109	0.517 88	0.643 104	0.366 92	0.714 70	0.456 94	0.468 83	0.870 106	0.432 72	0.264 55	0.558 68	0.674 69	0.586 88	0.688 79	0.482 96	0.739 97	0.733 94	0.537 88

SQN_0.1%	0.569 91	0.676 84	0.696 81	0.657 83	0.497 89	0.779 80	0.424 75	0.548 97	0.515 77	0.376 97	0.902 103	0.422 80	0.357 8	0.379 99	0.456 94	0.596 84	0.659 88	0.544 80	0.685 102	0.665 105	0.556 84

TextureNet	0.566 92	0.672 86	0.664 92	0.671 79	0.494 91	0.719 94	0.445 66	0.678 78	0.411 102	0.396 95	0.935 82	0.356 94	0.225 68	0.412 96	0.535 85	0.565 91	0.636 96	0.464 98	0.794 90	0.680 102	0.568 78
Jingwei Huang, Haotian Zhang, Li Yi, Thomas Funkerhouser, Matthias Niessner, Leonidas Guibas: TextureNet: Consistent Local Parametrizations for Learning from High-Resolution Signals on Meshes. CVPR
DVVNet	0.562 93	0.648 88	0.700 78	0.770 52	0.586 72	0.687 98	0.333 97	0.650 82	0.514 78	0.475 81	0.906 100	0.359 93	0.223 70	0.340 101	0.442 96	0.422 104	0.668 86	0.501 91	0.708 100	0.779 79	0.534 89

Pointnet++ & Feature	0.557 94	0.735 68	0.661 94	0.686 73	0.491 92	0.744 91	0.392 86	0.539 98	0.451 95	0.375 98	0.946 59	0.376 91	0.205 77	0.403 97	0.356 101	0.553 92	0.643 93	0.497 92	0.824 86	0.756 88	0.515 93

GMLPs	0.538 95	0.495 106	0.693 83	0.647 88	0.471 95	0.793 72	0.300 100	0.477 102	0.505 80	0.358 100	0.903 102	0.327 98	0.081 107	0.472 89	0.529 87	0.448 102	0.710 68	0.509 88	0.746 95	0.737 93	0.554 85

PanopticFusion-label	0.529 96	0.491 107	0.688 87	0.604 96	0.386 102	0.632 105	0.225 110	0.705 74	0.434 99	0.293 106	0.815 108	0.348 96	0.241 64	0.499 84	0.669 70	0.507 95	0.649 90	0.442 104	0.796 89	0.602 109	0.561 81
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
subcloud_weak	0.516 97	0.676 84	0.591 107	0.609 94	0.442 98	0.774 81	0.335 96	0.597 89	0.422 101	0.357 101	0.932 88	0.341 97	0.094 106	0.298 103	0.528 88	0.473 100	0.676 83	0.495 93	0.602 108	0.721 97	0.349 109

Online SegFusion	0.515 98	0.607 96	0.644 98	0.579 99	0.434 99	0.630 106	0.353 94	0.628 87	0.440 97	0.410 93	0.762 112	0.307 100	0.167 93	0.520 77	0.403 99	0.516 94	0.565 100	0.447 102	0.678 103	0.701 99	0.514 94
Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstroem, Cristian Sminchisescu, Luc van Gool: A Real-Time Learning Framework for Joint 3D Reconstruction and Semantic Segmentation. Robotics and Automation Letters Submission
3DMV, FTSDF	0.501 99	0.558 101	0.608 105	0.424 111	0.478 94	0.690 97	0.246 106	0.586 91	0.468 90	0.450 86	0.911 98	0.394 87	0.160 96	0.438 92	0.212 108	0.432 103	0.541 106	0.475 97	0.742 96	0.727 95	0.477 100

PCNN	0.498 100	0.559 100	0.644 98	0.560 101	0.420 101	0.711 96	0.229 108	0.414 103	0.436 98	0.352 102	0.941 74	0.324 99	0.155 97	0.238 108	0.387 100	0.493 96	0.529 107	0.509 88	0.813 88	0.751 90	0.504 95

Weakly-Openseg v3	0.489 101	0.749 62	0.664 92	0.646 90	0.496 90	0.559 110	0.122 113	0.577 93	0.257 113	0.364 99	0.805 109	0.198 111	0.096 105	0.510 80	0.496 92	0.361 108	0.563 101	0.359 111	0.777 91	0.644 106	0.532 91

3DMV	0.484 102	0.484 108	0.538 109	0.643 91	0.424 100	0.606 109	0.310 98	0.574 94	0.433 100	0.378 96	0.796 110	0.301 101	0.214 74	0.537 75	0.208 109	0.472 101	0.507 110	0.413 107	0.693 101	0.602 109	0.539 87
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
PointCNN with RGB	0.458 103	0.577 99	0.611 103	0.356 113	0.321 110	0.715 95	0.299 102	0.376 107	0.328 109	0.319 104	0.944 68	0.285 103	0.164 94	0.216 111	0.229 106	0.484 98	0.545 105	0.456 100	0.755 94	0.709 98	0.475 101
Yangyan Li, Rui Bu, Mingchao Sun, Baoquan Chen: PointCNN. NeurIPS 2018
FCPN	0.447 104	0.679 83	0.604 106	0.578 100	0.380 103	0.682 99	0.291 103	0.106 113	0.483 87	0.258 111	0.920 95	0.258 107	0.025 111	0.231 110	0.325 102	0.480 99	0.560 103	0.463 99	0.725 98	0.666 104	0.231 113
Dario Rethage, Johanna Wald, Jürgen Sturm, Nassir Navab, Federico Tombari: Fully-Convolutional Point Networks for Large-Scale Point Clouds. ECCV 2018
DGCNN_reproduce	0.446 105	0.474 109	0.623 101	0.463 107	0.366 105	0.651 102	0.310 98	0.389 106	0.349 107	0.330 103	0.937 79	0.271 105	0.126 102	0.285 104	0.224 107	0.350 110	0.577 99	0.445 103	0.625 106	0.723 96	0.394 105
Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E. Sarma, Michael M. Bronstein, Justin M. Solomon: Dynamic Graph CNN for Learning on Point Clouds. TOG 2019
PNET2	0.442 106	0.548 103	0.548 108	0.597 98	0.363 106	0.628 107	0.300 100	0.292 108	0.374 104	0.307 105	0.881 105	0.268 106	0.186 86	0.238 108	0.204 110	0.407 105	0.506 111	0.449 101	0.667 104	0.620 108	0.462 103

SurfaceConvPF	0.442 106	0.505 105	0.622 102	0.380 112	0.342 108	0.654 101	0.227 109	0.397 105	0.367 105	0.276 108	0.924 92	0.240 108	0.198 82	0.359 100	0.262 104	0.366 106	0.581 98	0.435 105	0.640 105	0.668 103	0.398 104
Hao Pan, Shilin Liu, Yang Liu, Xin Tong: Convolutional Neural Networks on 3D Surfaces Using Parallel Frames.
Tangent Convolutions	0.438 108	0.437 111	0.646 97	0.474 106	0.369 104	0.645 103	0.353 94	0.258 110	0.282 111	0.279 107	0.918 97	0.298 102	0.147 101	0.283 105	0.294 103	0.487 97	0.562 102	0.427 106	0.619 107	0.633 107	0.352 108
Maxim Tatarchenko, Jaesik Park, Vladlen Koltun, Qian-Yi Zhou: Tangent convolutions for dense prediction in 3d. CVPR 2018
3DWSSS	0.425 109	0.525 104	0.647 96	0.522 102	0.324 109	0.488 113	0.077 114	0.712 72	0.353 106	0.401 94	0.636 114	0.281 104	0.176 89	0.340 101	0.565 83	0.175 114	0.551 104	0.398 108	0.370 114	0.602 109	0.361 107

SPLAT Net	0.393 110	0.472 110	0.511 110	0.606 95	0.311 111	0.656 100	0.245 107	0.405 104	0.328 109	0.197 112	0.927 91	0.227 110	0.000 115	0.001 115	0.249 105	0.271 113	0.510 108	0.383 110	0.593 109	0.699 100	0.267 111
Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz: SPLATNet: Sparse Lattice Networks for Point Cloud Processing. CVPR 2018
ScanNet+FTSDF	0.383 111	0.297 113	0.491 111	0.432 110	0.358 107	0.612 108	0.274 104	0.116 112	0.411 102	0.265 109	0.904 101	0.229 109	0.079 108	0.250 106	0.185 111	0.320 111	0.510 108	0.385 109	0.548 110	0.597 112	0.394 105

PointNet++	0.339 112	0.584 98	0.478 112	0.458 108	0.256 113	0.360 114	0.250 105	0.247 111	0.278 112	0.261 110	0.677 113	0.183 112	0.117 103	0.212 112	0.145 113	0.364 107	0.346 114	0.232 114	0.548 110	0.523 113	0.252 112
Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas: pointnet++: deep hierarchical feature learning on point sets in a metric space.
SSC-UNet	0.308 113	0.353 112	0.290 114	0.278 114	0.166 114	0.553 111	0.169 112	0.286 109	0.147 114	0.148 114	0.908 99	0.182 113	0.064 109	0.023 114	0.018 115	0.354 109	0.363 112	0.345 112	0.546 112	0.685 101	0.278 110

ScanNet	0.306 114	0.203 114	0.366 113	0.501 103	0.311 111	0.524 112	0.211 111	0.002 115	0.342 108	0.189 113	0.786 111	0.145 114	0.102 104	0.245 107	0.152 112	0.318 112	0.348 113	0.300 113	0.460 113	0.437 114	0.182 114
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17
ERROR	0.054 115	0.000 115	0.041 115	0.172 115	0.030 115	0.062 115	0.001 115	0.035 114	0.004 115	0.051 115	0.143 115	0.019 115	0.003 114	0.041 113	0.050 114	0.003 115	0.054 115	0.018 115	0.005 115	0.264 115	0.082 115

This table lists the benchmark results for the 3D semantic instance scenario.

Method	avg ap 25%	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

OneFormer3D	0.896 1	1.000 1	1.000 1	0.913 5	0.858 5	0.951 5	0.786 10	0.837 15	0.916 9	0.908 1	0.778 5	0.803 4	0.750 11	1.000 1	0.976 2	0.926 4	0.882 5	0.995 41	0.849 1
Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: OneFormer3D: One Transformer for Unified Point Cloud Segmentation.
UniPerception	0.884 2	1.000 1	0.979 15	0.872 14	0.869 2	0.892 21	0.806 7	0.890 5	0.835 24	0.892 5	0.755 10	0.811 1	0.779 8	0.955 41	0.951 3	0.876 20	0.914 1	0.997 34	0.840 2

InsSSM	0.883 3	1.000 1	0.996 3	0.800 33	0.865 3	0.960 2	0.808 6	0.852 12	0.940 4	0.899 4	0.785 3	0.810 2	0.700 16	1.000 1	0.912 14	0.851 37	0.895 2	0.997 34	0.827 4

SIM3D	0.880 4	1.000 1	0.976 19	0.863 16	0.811 16	0.952 4	0.821 4	0.790 26	0.900 11	0.902 3	0.737 13	0.808 3	0.798 7	1.000 1	0.930 11	0.895 11	0.863 15	1.000 1	0.791 13

TST3D	0.879 5	1.000 1	0.994 5	0.921 4	0.807 17	0.939 10	0.771 11	0.887 6	0.923 7	0.862 11	0.722 16	0.768 9	0.756 10	1.000 1	0.910 23	0.904 6	0.836 20	0.999 33	0.824 6

Spherical Mask(CtoF)	0.875 6	1.000 1	0.991 10	0.873 13	0.850 6	0.946 7	0.691 20	0.752 30	0.926 5	0.889 7	0.759 8	0.794 6	0.820 2	1.000 1	0.912 14	0.900 8	0.878 9	1.000 1	0.769 16

TD3D	0.875 6	1.000 1	0.976 18	0.877 11	0.783 23	0.970 1	0.889 1	0.828 16	0.945 3	0.803 16	0.713 18	0.720 18	0.709 14	1.000 1	0.936 9	0.934 3	0.873 12	1.000 1	0.791 12
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
Queryformer	0.874 8	1.000 1	0.978 17	0.809 31	0.876 1	0.936 12	0.702 17	0.716 35	0.920 8	0.875 10	0.766 6	0.772 8	0.818 4	1.000 1	0.995 1	0.916 5	0.892 3	1.000 1	0.767 17

SoftGroup++	0.874 8	1.000 1	0.972 20	0.947 1	0.839 9	0.898 20	0.556 34	0.913 2	0.881 16	0.756 18	0.828 2	0.748 13	0.821 1	1.000 1	0.937 8	0.937 1	0.887 4	1.000 1	0.821 7

Mask3D	0.870 10	1.000 1	0.985 12	0.782 40	0.818 14	0.938 11	0.760 12	0.749 31	0.923 6	0.877 9	0.760 7	0.785 7	0.820 2	1.000 1	0.912 14	0.864 31	0.878 9	0.983 47	0.825 5
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
ExtMask3D	0.867 11	1.000 1	1.000 1	0.756 47	0.816 15	0.940 9	0.795 8	0.760 29	0.862 18	0.888 8	0.739 12	0.763 10	0.774 9	1.000 1	0.929 12	0.878 19	0.879 7	1.000 1	0.819 9

SoftGroup	0.865 12	1.000 1	0.969 21	0.860 17	0.860 4	0.913 16	0.558 31	0.899 3	0.911 10	0.760 17	0.828 1	0.736 15	0.802 6	0.981 38	0.919 13	0.875 21	0.877 11	1.000 1	0.820 8
Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo: SoftGroup for 3D Instance Segmentaiton on Point Clouds. CVPR 2022 [Oral]
MAFT	0.860 13	1.000 1	0.990 11	0.810 30	0.829 10	0.949 6	0.809 5	0.688 41	0.836 23	0.904 2	0.751 11	0.796 5	0.741 12	1.000 1	0.864 33	0.848 39	0.837 18	1.000 1	0.828 3

IPCA-Inst	0.851 14	1.000 1	0.968 22	0.884 10	0.842 8	0.862 33	0.693 19	0.812 21	0.888 15	0.677 30	0.783 4	0.698 19	0.807 5	1.000 1	0.911 20	0.865 30	0.865 14	1.000 1	0.757 20

SPFormer	0.851 14	1.000 1	0.994 6	0.806 32	0.774 25	0.942 8	0.637 23	0.849 13	0.859 20	0.889 6	0.720 17	0.730 16	0.665 21	1.000 1	0.911 20	0.868 29	0.873 13	1.000 1	0.796 11
Sun Jiahao, Qing Chunmei, Tan Junpeng, Xu Xiangmin: Superpoint Transformer for 3D Scene Instance Segmentation. AAAI 2023 [Oral]
Mask3D_evaluation	0.843 16	1.000 1	0.955 27	0.847 19	0.795 19	0.932 13	0.750 14	0.780 27	0.891 13	0.818 13	0.737 14	0.633 28	0.703 15	1.000 1	0.902 25	0.870 25	0.820 21	0.941 55	0.805 10

ISBNet	0.835 17	1.000 1	0.950 28	0.731 49	0.819 12	0.918 14	0.790 9	0.740 32	0.851 22	0.831 12	0.661 26	0.742 14	0.650 24	1.000 1	0.937 7	0.814 51	0.836 19	1.000 1	0.765 18
Tuan Duc Ngo, Binh-Son Hua, Khoi Nguyen: ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution. CVPR 2023
SphereSeg	0.835 17	1.000 1	0.963 25	0.891 8	0.794 20	0.954 3	0.822 3	0.710 36	0.961 2	0.721 22	0.693 24	0.530 41	0.653 23	1.000 1	0.867 32	0.857 34	0.859 16	0.991 44	0.771 15

GraphCut	0.832 19	1.000 1	0.922 42	0.724 51	0.798 18	0.902 19	0.701 18	0.856 10	0.859 19	0.715 23	0.706 19	0.748 12	0.640 35	1.000 1	0.934 10	0.862 32	0.880 6	1.000 1	0.729 23

TopoSeg	0.832 19	1.000 1	0.981 14	0.933 2	0.819 13	0.826 42	0.524 40	0.841 14	0.811 28	0.681 29	0.759 9	0.687 20	0.727 13	0.981 38	0.911 20	0.883 15	0.853 17	1.000 1	0.756 21

PBNet	0.825 21	1.000 1	0.963 24	0.837 22	0.843 7	0.865 28	0.822 2	0.647 44	0.878 17	0.733 20	0.639 33	0.683 21	0.650 24	1.000 1	0.853 34	0.870 26	0.820 22	1.000 1	0.744 22
W.Zhao, Y.Yan, C.Yang, J.Ye,X.Yang,K.Huang: Divide and Conquer: 3D Instance Segmentation With Point-Wise Binarization. ICCV 2023
SSEC	0.820 22	1.000 1	0.983 13	0.924 3	0.826 11	0.817 45	0.415 49	0.899 4	0.793 32	0.673 31	0.731 15	0.636 26	0.653 22	1.000 1	0.939 6	0.804 53	0.878 8	1.000 1	0.780 14

DKNet	0.815 23	1.000 1	0.930 34	0.844 20	0.765 29	0.915 15	0.534 38	0.805 23	0.805 30	0.807 15	0.654 27	0.763 11	0.650 24	1.000 1	0.794 46	0.881 16	0.766 26	1.000 1	0.758 19
Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong: 3D Instances as 1D Kernels. ECCV 2022
RPGN	0.806 24	1.000 1	0.992 8	0.789 35	0.723 42	0.891 22	0.650 22	0.810 22	0.832 25	0.665 33	0.699 22	0.658 22	0.700 16	1.000 1	0.881 27	0.832 43	0.774 24	0.997 34	0.613 43
Shichao Dong, Guosheng Lin, Tzu-Yi Hung: Learning Regional Purity for Instance Segmentation on 3D Point Clouds. ECCV 2022
HAIS	0.803 25	1.000 1	0.994 6	0.820 26	0.759 30	0.855 34	0.554 35	0.882 7	0.827 27	0.615 39	0.676 25	0.638 25	0.646 33	1.000 1	0.912 14	0.797 56	0.767 25	0.994 42	0.726 24
Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang: Hierarchical Aggregation for 3D Instance Segmentation. ICCV 2021
Box2Mask	0.803 25	1.000 1	0.962 26	0.874 12	0.707 46	0.887 25	0.686 21	0.598 49	0.961 1	0.715 24	0.694 23	0.469 46	0.700 16	1.000 1	0.912 14	0.902 7	0.753 31	0.997 34	0.637 37
Julian Chibane, Francis Engelmann, Tuan Anh Tran, Gerard Pons-Moll: Box2Mask: Weakly Supervised 3D Semantic Instance Segmentation Using Bounding Boxes. ECCV 2022
Mask-Group	0.792 27	1.000 1	0.968 23	0.812 27	0.766 28	0.864 29	0.460 43	0.815 20	0.888 14	0.598 43	0.651 30	0.639 24	0.600 41	0.918 44	0.941 4	0.896 10	0.721 38	1.000 1	0.723 25
Min Zhong, Xinghao Chen, Xiaokang Chen, Gang Zeng, Yunhe Wang: MaskGroup: Hierarchical Point Grouping and Masking for 3D Instance Segmentation. ICME 2022
CSC-Pretrained	0.791 28	1.000 1	0.996 3	0.829 25	0.767 27	0.889 24	0.600 26	0.819 19	0.770 37	0.594 44	0.620 37	0.541 38	0.700 16	1.000 1	0.941 4	0.889 13	0.763 27	1.000 1	0.526 53

SSTNet	0.789 29	1.000 1	0.840 56	0.888 9	0.717 43	0.835 38	0.717 16	0.684 42	0.627 52	0.724 21	0.652 29	0.727 17	0.600 41	1.000 1	0.912 14	0.822 46	0.757 30	1.000 1	0.691 31
Zhihao Liang, Zhihao Li, Songcen Xu, Mingkui Tan, Kui Jia: Instance Segmentation in 3D Scenes using Semantic Superpoint Tree Networks. ICCV2021
GICN	0.788 30	1.000 1	0.978 16	0.867 15	0.781 24	0.833 39	0.527 39	0.824 17	0.806 29	0.549 52	0.596 40	0.551 34	0.700 16	1.000 1	0.853 34	0.935 2	0.733 35	1.000 1	0.651 34

DENet	0.786 31	1.000 1	0.929 35	0.736 48	0.750 36	0.720 58	0.755 13	0.934 1	0.794 31	0.590 45	0.561 46	0.537 39	0.650 24	1.000 1	0.882 26	0.804 54	0.789 23	1.000 1	0.719 26

DANCENET	0.786 31	1.000 1	0.936 31	0.783 38	0.737 39	0.852 36	0.742 15	0.647 44	0.765 39	0.811 14	0.624 36	0.579 31	0.632 38	1.000 1	0.909 24	0.898 9	0.696 43	0.944 51	0.601 46

DualGroup	0.782 33	1.000 1	0.927 36	0.811 28	0.772 26	0.853 35	0.631 25	0.805 23	0.773 34	0.613 40	0.611 38	0.610 29	0.650 24	0.835 55	0.881 27	0.879 18	0.750 33	1.000 1	0.675 32

PointGroup	0.778 34	1.000 1	0.900 46	0.798 34	0.715 44	0.863 30	0.493 41	0.706 37	0.895 12	0.569 50	0.701 20	0.576 32	0.639 36	1.000 1	0.880 29	0.851 36	0.719 39	0.997 34	0.709 28
Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia: PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation. CVPR 2020 [oral]
PE	0.776 35	1.000 1	0.900 47	0.860 17	0.728 41	0.869 26	0.400 50	0.857 9	0.774 33	0.568 51	0.701 21	0.602 30	0.646 33	0.933 43	0.843 37	0.890 12	0.691 47	0.997 34	0.709 27
Biao Zhang, Peter Wonka: Point Cloud Instance Segmentation using Probabilistic Embeddings. CVPR 2021
AOIA	0.767 36	1.000 1	0.937 30	0.810 29	0.740 38	0.906 17	0.550 36	0.800 25	0.706 44	0.577 49	0.624 35	0.544 37	0.596 46	0.857 47	0.879 31	0.880 17	0.750 32	0.992 43	0.658 33

DD-UNet+Group	0.764 37	1.000 1	0.897 49	0.837 21	0.753 33	0.830 41	0.459 45	0.824 17	0.699 46	0.629 37	0.653 28	0.438 49	0.650 24	1.000 1	0.880 29	0.858 33	0.690 48	1.000 1	0.650 35
H. Liu, R. Liu, K. Yang, J. Zhang, K. Peng, R. Stiefelhagen: HIDA: Towards Holistic Indoor Understanding for the Visually Impaired via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor. ICCVW 2021
INS-Conv-instance	0.762 38	1.000 1	0.923 39	0.765 43	0.785 22	0.905 18	0.600 26	0.655 43	0.646 51	0.683 28	0.647 31	0.530 40	0.650 24	1.000 1	0.824 39	0.830 44	0.693 46	0.944 51	0.644 36

Dyco3D	0.761 39	1.000 1	0.935 32	0.893 7	0.752 35	0.863 31	0.600 26	0.588 50	0.742 41	0.641 35	0.633 34	0.546 36	0.550 48	0.857 47	0.789 48	0.853 35	0.762 28	0.987 45	0.699 29
Tong He; Chunhua Shen; Anton van den Hengel: DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution. CVPR2021
OccuSeg+instance	0.742 40	1.000 1	0.923 39	0.785 36	0.745 37	0.867 27	0.557 32	0.578 53	0.729 42	0.670 32	0.644 32	0.488 44	0.577 47	1.000 1	0.794 46	0.830 44	0.620 56	1.000 1	0.550 49
Lei Han, Tian Zheng, Lan Xu, Lu Fang: OccuSeg: Occupancy-aware 3D Instance Segmentation. CVPR2020
RWSeg	0.739 41	1.000 1	0.899 48	0.759 45	0.753 34	0.823 43	0.282 55	0.691 40	0.658 49	0.582 48	0.594 41	0.547 35	0.628 39	1.000 1	0.795 45	0.868 28	0.728 37	1.000 1	0.692 30

3D-MPA	0.737 42	1.000 1	0.933 33	0.785 36	0.794 21	0.831 40	0.279 57	0.588 50	0.695 47	0.616 38	0.559 47	0.556 33	0.650 24	1.000 1	0.809 43	0.875 22	0.696 44	1.000 1	0.608 45
Francis Engelmann, Martin Bokeloh, Alireza Fathi, Bastian Leibe, Matthias Nießner: 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation. CVPR 2020
MTML	0.731 43	1.000 1	0.992 8	0.779 42	0.609 55	0.746 53	0.308 54	0.867 8	0.601 55	0.607 41	0.539 50	0.519 42	0.550 48	1.000 1	0.824 39	0.869 27	0.729 36	1.000 1	0.616 41
Jean Lahoud, Bernard Ghanem, Marc Pollefeys, Martin R. Oswald: 3D Instance Segmentation via Multi-task Metric Learning. ICCV 2019 [oral]
OSIS	0.725 44	1.000 1	0.885 52	0.653 57	0.657 52	0.801 46	0.576 30	0.695 39	0.828 26	0.698 26	0.534 51	0.457 48	0.500 55	0.857 47	0.831 38	0.841 41	0.627 54	1.000 1	0.619 40

SSEN	0.724 45	1.000 1	0.926 37	0.781 41	0.661 50	0.845 37	0.596 29	0.529 56	0.764 40	0.653 34	0.489 57	0.461 47	0.500 55	0.859 46	0.765 49	0.872 24	0.761 29	1.000 1	0.577 47
Dongsu Zhang, Junha Chun, Sang Kyun Cha, Young Min Kim: Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with Deep Metric Learning. Arxiv
NeuralBF	0.718 46	1.000 1	0.945 29	0.901 6	0.754 32	0.817 44	0.460 43	0.700 38	0.772 35	0.688 27	0.568 45	0.000 68	0.500 55	0.981 38	0.606 59	0.872 23	0.740 34	1.000 1	0.614 42
Weiwei Sun, Daniel Rebain, Renjie Liao, Vladimir Tankovich, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi: NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation on Point Clouds. WACV 2023
Sparse R-CNN	0.714 47	1.000 1	0.926 38	0.694 52	0.699 48	0.890 23	0.636 24	0.516 57	0.693 48	0.743 19	0.588 42	0.369 53	0.601 40	0.594 61	0.800 44	0.886 14	0.676 49	0.986 46	0.546 50

SALoss-ResNet	0.695 48	1.000 1	0.855 54	0.579 62	0.589 57	0.735 56	0.484 42	0.588 50	0.856 21	0.634 36	0.571 44	0.298 54	0.500 55	1.000 1	0.824 39	0.818 47	0.702 42	0.935 58	0.545 51
Zhidong Liang, Ming Yang, Hao Li, Chunxiang Wang: 3D Instance Embedding Learning With a Structure-Aware Loss Function for Point Cloud Segmentation. IEEE Robotics and Automation Letters (IROS2020)
PanopticFusion-inst	0.693 49	1.000 1	0.852 55	0.655 56	0.616 54	0.788 48	0.334 52	0.763 28	0.771 36	0.457 62	0.555 48	0.652 23	0.518 52	0.857 47	0.765 49	0.732 62	0.631 52	0.944 51	0.577 48
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
Occipital-SCS	0.688 50	1.000 1	0.913 43	0.730 50	0.737 40	0.743 55	0.442 46	0.855 11	0.655 50	0.546 53	0.546 49	0.263 56	0.508 54	0.889 45	0.568 60	0.771 59	0.705 41	0.889 61	0.625 39

3D-BoNet	0.687 51	1.000 1	0.887 51	0.836 23	0.587 58	0.643 65	0.550 36	0.620 46	0.724 43	0.522 57	0.501 55	0.243 57	0.512 53	1.000 1	0.751 51	0.807 52	0.661 51	0.909 60	0.612 44
Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen Wang, Andrew Markham, Niki Trigoni: Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds. NeurIPS 2019 Spotlight
ClickSeg_Instance	0.685 52	1.000 1	0.818 58	0.600 60	0.715 45	0.795 47	0.557 32	0.533 55	0.591 57	0.601 42	0.519 53	0.429 51	0.638 37	0.938 42	0.706 54	0.817 49	0.624 55	0.944 51	0.502 55

PCJC	0.684 53	1.000 1	0.895 50	0.757 46	0.659 51	0.862 32	0.189 64	0.739 33	0.606 54	0.712 25	0.581 43	0.515 43	0.650 24	0.857 47	0.357 65	0.785 57	0.631 53	0.889 61	0.635 38

SPG_WSIS	0.678 54	1.000 1	0.880 53	0.836 23	0.701 47	0.727 57	0.273 59	0.607 48	0.706 45	0.541 55	0.515 54	0.174 60	0.600 41	0.857 47	0.716 53	0.846 40	0.711 40	1.000 1	0.506 54

One_Thing_One_Click	0.675 55	1.000 1	0.823 57	0.782 39	0.621 53	0.766 50	0.211 61	0.736 34	0.560 59	0.586 46	0.522 52	0.636 27	0.453 59	0.641 59	0.853 34	0.850 38	0.694 45	0.997 34	0.411 60
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
SegGroup_ins	0.637 56	1.000 1	0.923 41	0.593 61	0.561 59	0.746 54	0.143 66	0.504 58	0.766 38	0.485 60	0.442 58	0.372 52	0.530 51	0.714 56	0.815 42	0.775 58	0.673 50	1.000 1	0.431 59
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
MASC	0.615 57	0.711 64	0.802 59	0.540 63	0.757 31	0.777 49	0.029 67	0.577 54	0.588 58	0.521 58	0.600 39	0.436 50	0.534 50	0.697 57	0.616 58	0.838 42	0.526 58	0.980 48	0.534 52
Chen Liu, Yasutaka Furukawa: MASC: Multi-scale Affinity with Sparse Convolution for 3D Instance Segmentation.
UNet-backbone	0.605 58	1.000 1	0.909 44	0.764 44	0.603 56	0.704 59	0.415 48	0.301 63	0.548 60	0.461 61	0.394 59	0.267 55	0.386 61	0.857 47	0.649 57	0.817 48	0.504 60	0.959 49	0.356 63

3D-SIS	0.558 59	1.000 1	0.773 60	0.614 59	0.503 62	0.691 61	0.200 62	0.412 59	0.498 63	0.546 54	0.311 64	0.103 64	0.600 41	0.857 47	0.382 62	0.799 55	0.445 66	0.938 57	0.371 61
Ji Hou, Angela Dai, Matthias Niessner: 3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. CVPR 2019
R-PointNet	0.544 60	0.500 67	0.655 66	0.661 55	0.663 49	0.765 51	0.432 47	0.214 66	0.612 53	0.584 47	0.499 56	0.204 59	0.286 65	0.429 64	0.655 56	0.650 67	0.539 57	0.950 50	0.499 56

Hier3D	0.540 61	1.000 1	0.727 61	0.626 58	0.467 65	0.693 60	0.200 62	0.412 59	0.480 64	0.528 56	0.318 63	0.077 67	0.600 41	0.688 58	0.382 62	0.768 60	0.472 62	0.941 55	0.350 64
Tan: HCFS3D: Hierarchical Coupled Feature Selection Network for 3D Semantic and Instance Segmentation.
Region-18class	0.497 62	0.250 69	0.902 45	0.689 53	0.540 60	0.747 52	0.276 58	0.610 47	0.268 68	0.489 59	0.348 60	0.000 68	0.243 68	0.220 67	0.663 55	0.814 50	0.459 64	0.928 59	0.496 57

Sem_Recon_ins	0.484 63	0.764 63	0.608 68	0.470 65	0.521 61	0.637 66	0.311 53	0.218 65	0.348 67	0.365 66	0.223 65	0.222 58	0.258 66	0.629 60	0.734 52	0.596 68	0.509 59	0.858 64	0.444 58

tmp	0.474 64	1.000 1	0.727 61	0.433 67	0.481 64	0.673 63	0.022 69	0.380 61	0.517 62	0.436 64	0.338 62	0.128 62	0.343 63	0.429 64	0.291 67	0.728 63	0.473 61	0.833 65	0.300 66

SemRegionNet-20cls	0.470 65	1.000 1	0.727 61	0.447 66	0.481 63	0.678 62	0.024 68	0.380 61	0.518 61	0.440 63	0.339 61	0.128 62	0.350 62	0.429 64	0.212 68	0.711 64	0.465 63	0.833 65	0.290 67

ASIS	0.422 66	0.333 68	0.707 64	0.676 54	0.401 66	0.650 64	0.350 51	0.177 67	0.594 56	0.376 65	0.202 66	0.077 66	0.404 60	0.571 62	0.197 69	0.674 66	0.447 65	0.500 68	0.260 68

3D-BEVIS	0.401 67	0.667 65	0.687 65	0.419 68	0.137 69	0.587 67	0.188 65	0.235 64	0.359 66	0.211 68	0.093 69	0.080 65	0.311 64	0.571 62	0.382 62	0.754 61	0.300 68	0.874 63	0.357 62
Cathrin Elich, Francis Engelmann, Jonas Schult, Theodora Kontogianni, Bastian Leibe: 3D-BEVIS: Birds-Eye-View Instance Segmentation.
Sgpn_scannet	0.390 68	0.556 66	0.636 67	0.493 64	0.353 67	0.539 68	0.271 60	0.160 68	0.450 65	0.359 67	0.178 67	0.146 61	0.250 67	0.143 68	0.347 66	0.698 65	0.436 67	0.667 67	0.331 65

MaskRCNN 2d->3d Proj	0.261 69	0.903 62	0.081 69	0.008 69	0.233 68	0.175 69	0.280 56	0.106 69	0.150 69	0.203 69	0.175 68	0.480 45	0.218 69	0.143 68	0.542 61	0.404 69	0.153 69	0.393 69	0.049 69

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

Virtual MVFusion (R)	0.745 1	0.861 1	0.839 1	0.881 1	0.672 2	0.512 1	0.422 17	0.898 1	0.723 1	0.714 1	0.954 2	0.454 1	0.509 1	0.773 1	0.895 1	0.756 1	0.820 1	0.653 1	0.935 1	0.891 1	0.728 1
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
BPNet_2D	0.670 2	0.822 3	0.795 3	0.836 2	0.659 3	0.481 2	0.451 13	0.769 4	0.656 3	0.567 4	0.931 3	0.395 6	0.390 5	0.700 4	0.534 4	0.689 10	0.770 2	0.574 3	0.865 9	0.831 3	0.675 5
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia and Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MVF-GNN（2D）	0.636 3	0.606 14	0.794 4	0.434 16	0.688 1	0.337 8	0.464 12	0.798 3	0.632 5	0.589 3	0.908 8	0.420 2	0.329 12	0.743 2	0.594 2	0.738 2	0.676 5	0.527 4	0.906 2	0.818 6	0.715 3

CU-Hybrid-2D Net	0.636 3	0.825 2	0.820 2	0.179 23	0.648 4	0.463 3	0.549 2	0.742 7	0.676 2	0.628 2	0.961 1	0.420 2	0.379 6	0.684 8	0.381 18	0.732 3	0.723 3	0.599 2	0.827 16	0.851 2	0.634 7

CMX	0.613 5	0.681 8	0.725 12	0.502 12	0.634 6	0.297 18	0.478 10	0.830 2	0.651 4	0.537 7	0.924 4	0.375 7	0.315 14	0.686 7	0.451 14	0.714 5	0.543 21	0.504 6	0.894 7	0.823 5	0.688 4

DMMF_3d	0.605 6	0.651 9	0.744 10	0.782 3	0.637 5	0.387 4	0.536 3	0.732 8	0.590 7	0.540 6	0.856 21	0.359 11	0.306 15	0.596 14	0.539 3	0.627 20	0.706 4	0.497 8	0.785 21	0.757 19	0.476 22

EMSANet	0.600 7	0.716 4	0.746 9	0.395 18	0.614 9	0.382 5	0.523 4	0.713 11	0.571 11	0.503 10	0.922 6	0.404 5	0.397 4	0.655 9	0.400 16	0.626 21	0.663 6	0.469 13	0.900 4	0.827 4	0.577 14
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
MCA-Net	0.595 8	0.533 20	0.756 8	0.746 4	0.590 10	0.334 10	0.506 7	0.670 15	0.587 8	0.500 12	0.905 10	0.366 10	0.352 9	0.601 13	0.506 8	0.669 16	0.648 9	0.501 7	0.839 15	0.769 15	0.516 21

RFBNet	0.592 9	0.616 11	0.758 7	0.659 5	0.581 11	0.330 11	0.469 11	0.655 18	0.543 14	0.524 8	0.924 4	0.355 13	0.336 11	0.572 17	0.479 10	0.671 14	0.648 9	0.480 10	0.814 19	0.814 7	0.614 10

FAN_NV_RVC	0.586 10	0.510 21	0.764 6	0.079 26	0.620 8	0.330 11	0.494 8	0.753 5	0.573 9	0.556 5	0.884 16	0.405 4	0.303 16	0.718 3	0.452 13	0.672 13	0.658 7	0.509 5	0.898 5	0.813 8	0.727 2

DCRedNet	0.583 11	0.682 7	0.723 13	0.542 11	0.510 20	0.310 15	0.451 13	0.668 16	0.549 13	0.520 9	0.920 7	0.375 7	0.446 2	0.528 20	0.417 15	0.670 15	0.577 18	0.478 11	0.862 10	0.806 9	0.628 9

MIX6D_RVC	0.582 12	0.695 5	0.687 17	0.225 21	0.632 7	0.328 13	0.550 1	0.748 6	0.623 6	0.494 15	0.890 14	0.350 15	0.254 23	0.688 6	0.454 12	0.716 4	0.597 17	0.489 9	0.881 8	0.768 16	0.575 15

SSMA	0.577 13	0.695 5	0.716 15	0.439 14	0.563 14	0.314 14	0.444 15	0.719 9	0.551 12	0.503 10	0.887 15	0.346 16	0.348 10	0.603 12	0.353 20	0.709 6	0.600 15	0.457 14	0.901 3	0.786 11	0.599 13
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
DMMF	0.567 14	0.623 10	0.767 5	0.238 20	0.571 13	0.347 6	0.413 19	0.719 9	0.472 20	0.418 22	0.895 13	0.357 12	0.260 22	0.696 5	0.523 7	0.666 17	0.642 11	0.437 18	0.895 6	0.793 10	0.603 12

UNIV_CNP_RVC_UE	0.566 15	0.569 19	0.686 19	0.435 15	0.524 17	0.294 19	0.421 18	0.712 12	0.543 14	0.463 17	0.872 17	0.320 17	0.363 8	0.611 11	0.477 11	0.686 11	0.627 12	0.443 17	0.862 10	0.775 14	0.639 6

EMSAFormer	0.564 16	0.581 16	0.736 11	0.564 10	0.546 16	0.219 23	0.517 5	0.675 14	0.486 19	0.427 21	0.904 11	0.352 14	0.320 13	0.589 15	0.528 5	0.708 7	0.464 24	0.413 22	0.847 14	0.786 11	0.611 11

SN_RN152pyrx8_RVC	0.546 17	0.572 17	0.663 21	0.638 7	0.518 18	0.298 17	0.366 24	0.633 21	0.510 17	0.446 19	0.864 19	0.296 20	0.267 19	0.542 19	0.346 21	0.704 8	0.575 19	0.431 19	0.853 13	0.766 17	0.630 8

UDSSEG_RVC	0.545 18	0.610 13	0.661 22	0.588 8	0.556 15	0.268 21	0.482 9	0.642 20	0.572 10	0.475 16	0.836 23	0.312 18	0.367 7	0.630 10	0.189 23	0.639 19	0.495 23	0.452 15	0.826 17	0.756 20	0.541 17

segfomer with 6d	0.542 19	0.594 15	0.687 17	0.146 24	0.579 12	0.308 16	0.515 6	0.703 13	0.472 20	0.498 13	0.868 18	0.369 9	0.282 17	0.589 15	0.390 17	0.701 9	0.556 20	0.416 21	0.860 12	0.759 18	0.539 19

FuseNet	0.535 20	0.570 18	0.681 20	0.182 22	0.512 19	0.290 20	0.431 16	0.659 17	0.504 18	0.495 14	0.903 12	0.308 19	0.428 3	0.523 21	0.365 19	0.676 12	0.621 14	0.470 12	0.762 22	0.779 13	0.541 17
Caner Hazirbas, Lingni Ma, Csaba Domokos, Daniel Cremers: FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. ACCV 2016
AdapNet++	0.503 21	0.613 12	0.722 14	0.418 17	0.358 26	0.337 8	0.370 23	0.479 24	0.443 22	0.368 24	0.907 9	0.207 23	0.213 25	0.464 24	0.525 6	0.618 22	0.657 8	0.450 16	0.788 20	0.721 23	0.408 25
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
3DMV (2d proj)	0.498 22	0.481 24	0.612 23	0.579 9	0.456 22	0.343 7	0.384 21	0.623 22	0.525 16	0.381 23	0.845 22	0.254 22	0.264 21	0.557 18	0.182 24	0.581 24	0.598 16	0.429 20	0.760 23	0.661 25	0.446 24
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
MSeg1080_RVC	0.485 23	0.505 22	0.709 16	0.092 25	0.427 23	0.241 22	0.411 20	0.654 19	0.385 26	0.457 18	0.861 20	0.053 26	0.279 18	0.503 22	0.481 9	0.645 18	0.626 13	0.365 24	0.748 24	0.725 22	0.529 20
John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun: MSeg: A Composite Dataset for Multi-domain Semantic Segmentation. CVPR 2020
ILC-PSPNet	0.475 24	0.490 23	0.581 24	0.289 19	0.507 21	0.067 26	0.379 22	0.610 23	0.417 24	0.435 20	0.822 25	0.278 21	0.267 19	0.503 22	0.228 22	0.616 23	0.533 22	0.375 23	0.820 18	0.729 21	0.560 16

Enet (reimpl)	0.376 25	0.264 26	0.452 26	0.452 13	0.365 24	0.181 24	0.143 26	0.456 25	0.409 25	0.346 25	0.769 26	0.164 24	0.218 24	0.359 25	0.123 26	0.403 26	0.381 26	0.313 26	0.571 25	0.685 24	0.472 23
Re-implementation of Adam Paszke, Abhishek Chaurasia, Sangpil Kim, Eugenio Culurciello: ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation.
ScanNet (2d proj)	0.330 26	0.293 25	0.521 25	0.657 6	0.361 25	0.161 25	0.250 25	0.004 26	0.440 23	0.183 26	0.836 23	0.125 25	0.060 26	0.319 26	0.132 25	0.417 25	0.412 25	0.344 25	0.541 26	0.427 26	0.109 26
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

EMSANet (Instance)	0.241 1	0.401 1	0.439 1	0.085 1	0.242 1	0.220 1	0.081 1	0.289 2	0.117 2	0.121 1	0.182 1	0.126 1	0.346 1	0.181 2	0.181 2	0.358 1	0.156 1	0.675 2	0.131 1
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
UniDet_RVC	0.205 2	0.381 2	0.323 3	0.037 3	0.226 3	0.177 3	0.063 2	0.277 3	0.120 1	0.067 3	0.131 3	0.074 3	0.317 2	0.080 3	0.235 1	0.289 3	0.141 3	0.678 1	0.080 3

FKNet	0.204 3	0.334 3	0.358 2	0.038 2	0.234 2	0.184 2	0.025 3	0.318 1	0.042 4	0.088 2	0.141 2	0.053 4	0.300 3	0.207 1	0.171 3	0.292 2	0.149 2	0.636 3	0.109 2

MaskRCNN_ScanNet	0.119 4	0.129 4	0.212 4	0.002 4	0.112 4	0.148 4	0.014 4	0.205 4	0.044 3	0.066 4	0.078 4	0.095 2	0.142 4	0.030 4	0.128 4	0.139 4	0.080 4	0.459 4	0.057 4
Re-implementation of Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick: Mask R-CNN. ICCV'17

Presenting the ScanNet200 Benchmark

ScanNet200 Benchmark

ScanNet200 3D Semantic Label Benchmark

ScanNet200 3D Semantic Instance Benchmark

ScanNet Benchmark

3D Semantic Label Benchmark

3D Semantic Instance Benchmark

2D Semantic Label Benchmark

2D Semantic Instance Benchmark

Scene Type Classification Benchmark

Method	avg recall	apartment	bathroom	bedroom / hotel	bookstore / library	conference room	copy/mail room	hallway	kitchen	laundry room	living room / lounge	misc	office	storage / basement / garage

LAST-PCL-type	0.780 1	0.250 3	1.000 1	1.000 1	1.000 1	1.000 1	1.000 1	0.500 2	1.000 1	0.500 2	0.889 1	0.000 2	1.000 1	1.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang: Language-Assisted 3D Scene Understanding. arxiv23.12
multi-task	0.700 2	0.500 1	1.000 1	0.882 3	0.500 3	1.000 1	1.000 1	0.500 2	1.000 1	1.000 1	0.778 2	0.000 2	0.938 2	0.000 3
Shengyu Huang, Mikhail Usvyatsov, Konrad Schindler: Indoor Scene Recognition in 3D. IROS 2020
3DASPP-SCE	0.691 3	0.500 1	0.938 3	0.824 4	1.000 1	1.000 1	0.500 3	1.000 1	0.857 3	0.500 2	0.556 4	0.000 2	0.812 3	0.500 2

SE-ResNeXt-SSMA	0.498 4	0.000 5	0.812 4	0.941 2	0.500 3	0.500 4	0.500 3	0.500 2	0.429 5	0.500 2	0.667 3	0.500 1	0.625 4	0.000 3
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. arXiv
resnet50_scannet	0.353 5	0.250 3	0.812 4	0.529 5	0.500 3	0.500 4	0.000 5	0.500 2	0.571 4	0.000 5	0.556 4	0.000 2	0.375 5	0.000 3