Benchmark Results - ScanNet Benchmark

This table lists the benchmark results for the ScanNet200 3D semantic label scenario.

Method	avg iou	head iou	common iou	tail iou	wall	chair	floor	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

PPT-SpUNet-F.T.	0.332 6	0.556 3	0.270 3	0.123 8	0.816 3	0.682 4	0.946 3	0.549 5	0.657 5	0.756 3	0.459 4	0.376 5	0.550 6	0.001 8	0.807 2	0.616 1	0.727 6	0.267 4	0.691 3	0.942 6	0.530 6	0.872 4	0.874 4	0.330 4	0.542 8	0.374 5	0.792 3	0.400 8	0.673 2	0.572 4	0.433 1	0.793 4	0.623 4	0.008 11	0.351 4	0.594 6	0.000 1	0.783 7	0.876 4	0.833 4	0.213 3	0.000 7	0.537 4	0.091 3	0.519 2	0.304 4	0.620 5	0.942 1	0.264 2	0.124 4	0.855 3	0.695 2	0.086 5	0.646 5	0.506 10	0.658 4	0.535 3	0.715 2	0.314 1	0.000 3	0.241 3	0.608 2	0.897 2	0.359 5	0.858 5	0.000 3	0.076 11	0.611 7	0.392 6	0.509 5	0.378 2	0.000 1	0.579 2	0.565 10	0.000 4	0.000 6	0.000 1	0.000 3	0.755 4	0.806 7	0.661 1	0.572 9	0.350 6	0.181 6	0.660 6	0.300 8	0.000 3	0.000 4	0.000 1	0.023 6	0.000 3	0.042 10	0.930 2	0.000 1	0.000 7	0.077 4	0.584 3	0.392 6	0.339 6	0.185 4	0.171 7	0.308 2	0.006 9	0.563 3	0.256 5	0.150 1	0.000 3	0.002 10	0.345 9	0.000 1	0.045 8	0.197 2	0.063 5	0.323 8	0.453 2	0.600 5	0.163 6	0.037 9	0.349 2	0.000 1	0.672 2	0.679 3	0.753 1	0.000 1	0.000 6	0.000 6	0.117 2	0.000 5	0.000 6	0.291 8	0.000 6	0.000 4	0.039 3	0.000 1	0.000 1	0.899 2	0.000 1	0.374 7	0.000 1	0.000 7	0.545 4	0.000 1	0.634 3	0.000 1	0.000 1	0.074 7	0.223 3	0.914 5	0.000 5	0.021 3	0.000 1	0.000 5	0.000 1	0.112 4	0.498 7	0.649 1	0.383 7	0.095 1	0.135 10	0.449 7	0.432 6	0.008 5	0.000 1	0.518 4	0.000 2	0.000 2	0.000 7	0.796 2	0.000 2	0.000 1	0.000 1	0.138 8	0.000 4	0.000 2	0.000 6	0.000 1
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
CSC-Pretrain	0.249 11	0.455 11	0.171 10	0.079 11	0.766 11	0.659 9	0.930 11	0.494 8	0.542 11	0.700 11	0.314 11	0.215 11	0.430 11	0.121 1	0.697 11	0.441 10	0.683 10	0.235 8	0.609 11	0.895 10	0.476 11	0.816 10	0.770 11	0.186 8	0.634 4	0.216 11	0.734 6	0.340 10	0.471 10	0.307 10	0.293 11	0.591 11	0.542 10	0.076 5	0.205 10	0.464 9	0.000 1	0.484 11	0.832 11	0.766 6	0.052 10	0.000 7	0.413 10	0.059 10	0.418 10	0.222 10	0.318 11	0.609 10	0.206 9	0.112 5	0.743 8	0.625 8	0.076 6	0.579 10	0.548 7	0.590 10	0.371 10	0.552 11	0.081 10	0.003 2	0.142 8	0.201 11	0.638 11	0.233 10	0.686 11	0.000 3	0.142 6	0.444 11	0.375 7	0.247 11	0.198 8	0.000 1	0.128 11	0.454 11	0.019 2	0.097 1	0.000 1	0.000 3	0.553 9	0.557 10	0.373 7	0.545 10	0.164 10	0.014 11	0.547 10	0.174 9	0.000 3	0.002 2	0.000 1	0.037 2	0.000 3	0.063 8	0.664 11	0.000 1	0.000 7	0.130 2	0.170 8	0.152 11	0.335 7	0.079 8	0.110 9	0.175 8	0.098 6	0.175 11	0.166 9	0.045 11	0.207 1	0.014 8	0.465 3	0.000 1	0.001 11	0.001 11	0.046 6	0.299 9	0.327 10	0.537 7	0.033 10	0.012 11	0.186 7	0.000 1	0.205 10	0.377 8	0.463 10	0.000 1	0.058 2	0.000 6	0.055 9	0.041 1	0.000 6	0.105 10	0.000 6	0.000 4	0.000 7	0.000 1	0.000 1	0.398 9	0.000 1	0.308 11	0.000 1	0.000 7	0.319 9	0.000 1	0.543 9	0.000 1	0.000 1	0.062 9	0.004 7	0.862 10	0.000 5	0.000 5	0.000 1	0.000 5	0.000 1	0.123 3	0.316 10	0.225 9	0.250 9	0.094 2	0.180 5	0.332 10	0.441 5	0.000 8	0.000 1	0.310 11	0.000 2	0.000 2	0.000 7	0.592 8	0.000 2	0.000 1	0.000 1	0.203 1	0.000 4	0.000 2	0.000 6	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
AWCS	0.305 8	0.508 8	0.225 8	0.142 5	0.782 8	0.634 11	0.937 8	0.489 9	0.578 8	0.721 6	0.364 9	0.355 7	0.515 7	0.023 6	0.764 8	0.523 7	0.707 8	0.264 5	0.633 8	0.922 8	0.507 9	0.886 1	0.804 9	0.179 9	0.436 10	0.300 8	0.656 10	0.529 2	0.501 9	0.394 7	0.296 10	0.820 2	0.603 6	0.131 3	0.179 11	0.619 2	0.000 1	0.707 10	0.865 8	0.773 5	0.171 4	0.010 6	0.484 8	0.063 9	0.463 8	0.254 7	0.332 10	0.649 8	0.220 7	0.100 7	0.729 9	0.613 9	0.071 8	0.582 9	0.628 4	0.702 2	0.424 9	0.749 1	0.137 9	0.000 3	0.142 8	0.360 8	0.863 4	0.305 8	0.877 4	0.000 3	0.173 2	0.606 8	0.337 8	0.478 8	0.154 9	0.000 1	0.253 8	0.664 4	0.000 4	0.000 6	0.000 1	0.000 3	0.626 8	0.782 8	0.302 10	0.602 3	0.185 9	0.282 5	0.651 7	0.317 7	0.000 3	0.000 4	0.000 1	0.022 7	0.000 3	0.154 1	0.876 6	0.000 1	0.014 6	0.063 6	0.029 11	0.553 3	0.467 2	0.084 7	0.124 8	0.157 10	0.049 8	0.373 8	0.252 6	0.097 9	0.000 3	0.219 4	0.542 2	0.000 1	0.392 2	0.172 5	0.000 9	0.339 6	0.417 5	0.533 8	0.093 9	0.115 5	0.195 6	0.000 1	0.516 6	0.288 10	0.741 2	0.000 1	0.001 5	0.233 3	0.056 8	0.000 5	0.159 3	0.334 7	0.077 5	0.000 4	0.000 7	0.000 1	0.000 1	0.749 8	0.000 1	0.411 4	0.000 1	0.008 6	0.452 7	0.000 1	0.595 7	0.000 1	0.000 1	0.220 6	0.006 6	0.894 8	0.006 4	0.000 5	0.000 1	0.000 5	0.000 1	0.112 4	0.504 5	0.404 6	0.551 1	0.093 3	0.129 11	0.484 6	0.381 11	0.000 8	0.000 1	0.396 9	0.000 2	0.000 2	0.620 2	0.402 11	0.000 2	0.000 1	0.000 1	0.142 7	0.000 4	0.000 2	0.512 4	0.000 1

CeCo	0.340 3	0.551 5	0.247 7	0.181 2	0.784 7	0.661 8	0.939 7	0.564 3	0.624 7	0.721 6	0.484 3	0.429 2	0.575 2	0.027 5	0.774 6	0.503 8	0.753 2	0.242 7	0.656 7	0.945 4	0.534 4	0.865 5	0.860 5	0.177 11	0.616 5	0.400 2	0.818 2	0.579 1	0.615 5	0.367 8	0.408 4	0.726 9	0.633 2	0.162 1	0.360 3	0.619 2	0.000 1	0.828 3	0.873 6	0.924 2	0.109 8	0.083 3	0.564 2	0.057 11	0.475 7	0.266 6	0.781 1	0.767 6	0.257 4	0.100 7	0.825 5	0.663 6	0.048 10	0.620 8	0.551 6	0.595 9	0.532 4	0.692 6	0.246 3	0.000 3	0.213 4	0.615 1	0.861 5	0.376 4	0.900 2	0.000 3	0.102 10	0.660 4	0.321 9	0.547 3	0.226 7	0.000 1	0.311 7	0.742 2	0.011 3	0.006 5	0.000 1	0.000 3	0.546 10	0.824 6	0.345 8	0.665 1	0.450 3	0.435 1	0.683 2	0.411 4	0.338 1	0.000 4	0.000 1	0.030 5	0.000 3	0.068 6	0.892 5	0.000 1	0.063 3	0.000 7	0.257 7	0.304 9	0.387 3	0.079 8	0.228 3	0.190 6	0.000 10	0.586 1	0.347 2	0.133 4	0.000 3	0.037 7	0.377 7	0.000 1	0.384 3	0.006 10	0.003 7	0.421 2	0.410 7	0.643 3	0.171 4	0.121 4	0.142 8	0.000 1	0.510 7	0.447 6	0.474 8	0.000 1	0.000 6	0.286 2	0.083 7	0.000 5	0.000 6	0.603 1	0.096 3	0.063 3	0.000 7	0.000 1	0.000 1	0.898 3	0.000 1	0.429 3	0.000 1	0.400 1	0.550 3	0.000 1	0.633 4	0.000 1	0.000 1	0.377 3	0.000 9	0.916 3	0.000 5	0.000 5	0.000 1	0.000 5	0.000 1	0.102 9	0.499 6	0.296 8	0.463 3	0.089 4	0.304 1	0.740 2	0.401 10	0.010 3	0.000 1	0.560 1	0.000 2	0.000 2	0.709 1	0.652 6	0.000 2	0.000 1	0.000 1	0.143 6	0.000 4	0.000 2	0.609 2	0.000 1
Zhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia: Understanding Imbalanced Semantic Segmentation Through Neural Collapse. CVPR 2023
LGround	0.272 9	0.485 9	0.184 9	0.106 9	0.778 9	0.676 6	0.932 9	0.479 11	0.572 9	0.718 8	0.399 6	0.265 9	0.453 10	0.085 3	0.745 9	0.446 9	0.726 7	0.232 9	0.622 9	0.901 9	0.512 8	0.826 9	0.786 10	0.178 10	0.549 7	0.277 9	0.659 9	0.381 9	0.518 8	0.295 11	0.323 8	0.777 7	0.599 7	0.028 7	0.321 5	0.363 10	0.000 1	0.708 9	0.858 9	0.746 8	0.063 9	0.022 5	0.457 9	0.077 6	0.476 6	0.243 9	0.402 8	0.397 11	0.233 6	0.077 11	0.720 11	0.610 10	0.103 3	0.629 7	0.437 11	0.626 7	0.446 8	0.702 4	0.190 7	0.005 1	0.058 10	0.322 9	0.702 10	0.244 9	0.768 8	0.000 3	0.134 7	0.552 9	0.279 10	0.395 9	0.147 10	0.000 1	0.207 9	0.612 8	0.000 4	0.000 6	0.000 1	0.000 3	0.658 6	0.566 9	0.323 9	0.525 11	0.229 8	0.179 7	0.467 11	0.154 10	0.000 3	0.002 2	0.000 1	0.051 1	0.000 3	0.127 2	0.703 9	0.000 1	0.000 7	0.216 1	0.112 10	0.358 7	0.547 1	0.187 3	0.092 10	0.156 11	0.055 7	0.296 9	0.252 6	0.143 2	0.000 3	0.014 8	0.398 5	0.000 1	0.028 10	0.173 4	0.000 9	0.265 10	0.348 9	0.415 10	0.179 3	0.019 10	0.218 5	0.000 1	0.597 5	0.274 11	0.565 7	0.000 1	0.012 3	0.000 6	0.039 10	0.022 2	0.000 6	0.117 9	0.000 6	0.000 4	0.000 7	0.000 1	0.000 1	0.324 10	0.000 1	0.384 5	0.000 1	0.000 7	0.251 11	0.000 1	0.566 8	0.000 1	0.000 1	0.066 8	0.404 1	0.886 9	0.199 1	0.000 5	0.000 1	0.059 3	0.000 1	0.136 1	0.540 3	0.127 11	0.295 8	0.085 5	0.143 6	0.514 4	0.413 9	0.000 8	0.000 1	0.498 5	0.000 2	0.000 2	0.000 7	0.623 7	0.000 2	0.000 1	0.000 1	0.132 10	0.000 4	0.000 2	0.000 6	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild. arXiv
L3DETR-ScanNet_200	0.336 4	0.533 7	0.279 2	0.155 4	0.801 6	0.689 2	0.946 3	0.539 6	0.660 4	0.759 2	0.380 8	0.333 8	0.583 1	0.000 9	0.788 5	0.529 6	0.740 4	0.261 6	0.679 6	0.940 7	0.525 7	0.860 6	0.883 3	0.226 7	0.613 6	0.397 3	0.720 8	0.512 4	0.565 6	0.620 1	0.417 3	0.775 8	0.629 3	0.158 2	0.298 6	0.579 7	0.000 1	0.835 1	0.883 3	0.927 1	0.114 7	0.079 4	0.511 6	0.073 7	0.508 3	0.312 3	0.629 3	0.861 4	0.192 10	0.098 9	0.908 1	0.636 7	0.032 11	0.563 11	0.514 9	0.664 3	0.505 6	0.697 5	0.225 6	0.000 3	0.264 1	0.411 7	0.860 6	0.321 7	0.960 1	0.058 2	0.109 8	0.776 1	0.526 3	0.557 2	0.303 5	0.000 1	0.339 6	0.712 3	0.000 4	0.014 4	0.000 1	0.000 3	0.638 7	0.856 3	0.641 4	0.579 7	0.107 11	0.119 9	0.661 5	0.416 3	0.000 3	0.000 4	0.000 1	0.007 11	0.000 3	0.067 7	0.910 3	0.000 1	0.000 7	0.000 7	0.463 5	0.448 4	0.294 10	0.324 1	0.293 1	0.211 4	0.108 5	0.448 5	0.068 11	0.141 3	0.000 3	0.330 2	0.699 1	0.000 1	0.256 5	0.192 3	0.000 9	0.355 5	0.418 4	0.209 11	0.146 7	0.679 1	0.101 11	0.000 1	0.503 9	0.687 1	0.671 4	0.000 1	0.000 6	0.174 5	0.117 2	0.000 5	0.122 4	0.515 2	0.104 2	0.259 2	0.312 1	0.000 1	0.000 1	0.765 7	0.000 1	0.369 8	0.000 1	0.183 3	0.422 8	0.000 1	0.646 2	0.000 1	0.000 1	0.565 1	0.001 8	0.125 11	0.010 3	0.002 4	0.000 1	0.487 1	0.000 1	0.075 10	0.548 2	0.420 5	0.233 10	0.082 6	0.138 9	0.430 8	0.427 7	0.000 8	0.000 1	0.549 3	0.000 2	0.000 2	0.074 6	0.409 10	0.000 2	0.000 1	0.000 1	0.152 5	0.051 2	0.000 2	0.598 3	0.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, Jian Zhang: Language-Assisted 3D Scene Understanding. arXiv23.12
OctFormer ScanNet200	0.326 7	0.539 6	0.265 6	0.131 6	0.806 5	0.670 7	0.943 6	0.535 7	0.662 2	0.705 10	0.423 5	0.407 3	0.505 8	0.003 7	0.765 7	0.582 4	0.686 9	0.227 10	0.680 5	0.943 5	0.601 1	0.854 8	0.892 2	0.335 2	0.417 11	0.357 6	0.724 7	0.453 5	0.632 4	0.596 2	0.432 2	0.783 6	0.512 11	0.021 9	0.244 9	0.637 1	0.000 1	0.787 6	0.873 6	0.743 9	0.000 11	0.000 7	0.534 5	0.110 1	0.499 4	0.289 5	0.626 4	0.620 9	0.168 11	0.204 1	0.849 4	0.679 4	0.117 2	0.633 6	0.684 2	0.650 5	0.552 2	0.684 7	0.312 2	0.000 3	0.175 6	0.429 6	0.865 3	0.413 2	0.837 6	0.000 3	0.145 5	0.626 5	0.451 4	0.487 7	0.513 1	0.000 1	0.529 4	0.613 7	0.000 4	0.033 3	0.000 1	0.000 3	0.828 2	0.871 2	0.622 5	0.587 5	0.411 4	0.137 8	0.645 8	0.343 6	0.000 3	0.000 4	0.000 1	0.022 7	0.000 3	0.026 11	0.829 8	0.000 1	0.022 5	0.089 3	0.842 1	0.253 10	0.318 8	0.296 2	0.178 6	0.291 3	0.224 1	0.584 2	0.200 8	0.132 5	0.000 3	0.128 5	0.227 10	0.000 1	0.230 7	0.047 8	0.149 4	0.331 7	0.412 6	0.618 4	0.164 5	0.102 6	0.522 1	0.000 1	0.655 3	0.378 7	0.469 9	0.000 1	0.000 6	0.000 6	0.105 5	0.000 5	0.000 6	0.483 3	0.000 6	0.000 4	0.028 4	0.000 1	0.000 1	0.906 1	0.000 1	0.339 9	0.000 1	0.000 7	0.457 6	0.000 1	0.612 5	0.000 1	0.000 1	0.408 2	0.000 9	0.900 6	0.000 5	0.000 5	0.000 1	0.029 4	0.000 1	0.074 11	0.455 9	0.479 3	0.427 4	0.079 7	0.140 8	0.496 5	0.414 8	0.022 2	0.000 1	0.471 8	0.000 2	0.000 2	0.000 7	0.722 3	0.000 2	0.000 1	0.000 1	0.138 8	0.000 4	0.000 2	0.000 6	0.000 1
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
PonderV2 ScanNet200	0.346 2	0.552 4	0.270 4	0.175 3	0.810 4	0.682 4	0.950 2	0.560 4	0.641 6	0.761 1	0.398 7	0.357 6	0.570 5	0.113 2	0.804 3	0.603 3	0.750 3	0.283 2	0.681 4	0.952 2	0.548 2	0.874 3	0.852 7	0.290 6	0.700 2	0.356 7	0.792 3	0.445 6	0.545 7	0.436 6	0.351 7	0.787 5	0.611 5	0.050 6	0.290 8	0.519 8	0.000 1	0.825 4	0.888 2	0.842 3	0.259 2	0.100 2	0.558 3	0.070 8	0.497 5	0.247 8	0.457 7	0.889 2	0.248 5	0.106 6	0.817 7	0.691 3	0.094 4	0.729 1	0.636 3	0.620 8	0.503 7	0.660 9	0.243 4	0.000 3	0.212 5	0.590 3	0.860 6	0.400 3	0.881 3	0.000 3	0.202 1	0.622 6	0.408 5	0.499 6	0.261 6	0.000 1	0.385 5	0.636 5	0.000 4	0.000 6	0.000 1	0.000 3	0.433 11	0.843 4	0.660 3	0.574 8	0.481 2	0.336 3	0.677 3	0.486 2	0.000 3	0.030 1	0.000 1	0.034 4	0.000 3	0.080 5	0.869 7	0.000 1	0.000 7	0.000 7	0.540 4	0.727 2	0.232 11	0.115 5	0.186 5	0.193 5	0.000 10	0.403 6	0.326 3	0.103 8	0.000 3	0.290 3	0.392 6	0.000 1	0.346 4	0.062 7	0.424 2	0.375 4	0.431 3	0.667 2	0.115 8	0.082 7	0.239 4	0.000 1	0.504 8	0.606 4	0.584 6	0.000 1	0.002 4	0.186 4	0.104 6	0.000 5	0.394 2	0.384 6	0.083 4	0.000 4	0.007 5	0.000 1	0.000 1	0.880 4	0.000 1	0.377 6	0.000 1	0.263 2	0.565 2	0.000 1	0.608 6	0.000 1	0.000 1	0.304 4	0.009 5	0.924 1	0.000 5	0.000 5	0.000 1	0.000 5	0.000 1	0.128 2	0.584 1	0.475 4	0.412 5	0.076 8	0.269 3	0.621 3	0.509 3	0.010 3	0.000 1	0.491 6	0.063 1	0.000 2	0.472 3	0.880 1	0.000 2	0.000 1	0.000 1	0.179 3	0.125 1	0.000 2	0.441 5	0.000 1
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
PTv3 ScanNet200	0.393 1	0.592 1	0.330 1	0.216 1	0.851 1	0.687 3	0.971 1	0.586 1	0.755 1	0.752 4	0.505 1	0.404 4	0.575 2	0.000 9	0.848 1	0.616 1	0.761 1	0.349 1	0.738 1	0.978 1	0.546 3	0.860 6	0.926 1	0.346 1	0.654 3	0.384 4	0.828 1	0.523 3	0.699 1	0.583 3	0.387 5	0.822 1	0.688 1	0.118 4	0.474 1	0.603 4	0.000 1	0.832 2	0.903 1	0.753 7	0.140 6	0.000 7	0.650 1	0.109 2	0.520 1	0.457 1	0.497 6	0.871 3	0.281 1	0.192 2	0.887 2	0.748 1	0.168 1	0.727 2	0.733 1	0.740 1	0.644 1	0.714 3	0.190 7	0.000 3	0.256 2	0.449 5	0.914 1	0.514 1	0.759 9	0.337 1	0.172 3	0.692 3	0.617 1	0.636 1	0.325 3	0.000 1	0.641 1	0.782 1	0.000 4	0.065 2	0.000 1	0.000 3	0.842 1	0.903 1	0.661 1	0.662 2	0.612 1	0.405 2	0.731 1	0.566 1	0.000 3	0.000 4	0.000 1	0.017 9	0.301 1	0.088 4	0.941 1	0.000 1	0.077 2	0.000 7	0.717 2	0.790 1	0.310 9	0.026 11	0.264 2	0.349 1	0.220 2	0.397 7	0.366 1	0.115 7	0.000 3	0.337 1	0.463 4	0.000 1	0.531 1	0.218 1	0.593 1	0.455 1	0.469 1	0.708 1	0.210 1	0.592 2	0.108 10	0.000 1	0.728 1	0.682 2	0.671 4	0.000 1	0.000 6	0.407 1	0.136 1	0.022 2	0.575 1	0.436 4	0.259 1	0.428 1	0.048 2	0.000 1	0.000 1	0.879 5	0.000 1	0.480 1	0.000 1	0.133 4	0.597 1	0.000 1	0.690 1	0.000 1	0.000 1	0.009 10	0.000 9	0.921 2	0.000 5	0.151 1	0.000 1	0.000 5	0.000 1	0.109 6	0.494 8	0.622 2	0.394 6	0.073 9	0.141 7	0.798 1	0.528 2	0.026 1	0.000 1	0.551 2	0.000 2	0.000 2	0.134 5	0.717 4	0.000 2	0.000 1	0.000 1	0.188 2	0.000 4	0.000 2	0.791 1	0.000 1
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
Minkowski 34D	0.253 10	0.463 10	0.154 11	0.102 10	0.771 10	0.650 10	0.932 9	0.483 10	0.571 10	0.710 9	0.331 10	0.250 10	0.492 9	0.044 4	0.703 10	0.419 11	0.606 11	0.227 10	0.621 10	0.865 11	0.531 5	0.771 11	0.813 8	0.291 5	0.484 9	0.242 10	0.612 11	0.282 11	0.440 11	0.351 9	0.299 9	0.622 10	0.593 8	0.027 8	0.293 7	0.310 11	0.000 1	0.757 8	0.858 9	0.737 10	0.150 5	0.164 1	0.368 11	0.084 4	0.381 11	0.142 11	0.357 9	0.720 7	0.214 8	0.092 10	0.724 10	0.596 11	0.056 9	0.655 4	0.525 8	0.581 11	0.352 11	0.594 10	0.056 11	0.000 3	0.014 11	0.224 10	0.772 9	0.205 11	0.720 10	0.000 3	0.159 4	0.531 10	0.163 11	0.294 10	0.136 11	0.000 1	0.169 10	0.589 9	0.000 4	0.000 6	0.000 1	0.002 1	0.663 5	0.466 11	0.265 11	0.582 6	0.337 7	0.016 10	0.559 9	0.084 11	0.000 3	0.000 4	0.000 1	0.036 3	0.000 3	0.125 3	0.670 10	0.000 1	0.102 1	0.071 5	0.164 9	0.406 5	0.386 4	0.046 10	0.068 11	0.159 9	0.117 3	0.284 10	0.111 10	0.094 10	0.000 3	0.000 11	0.197 11	0.000 1	0.044 9	0.013 9	0.002 8	0.228 11	0.307 11	0.588 6	0.025 11	0.545 3	0.134 9	0.000 1	0.655 3	0.302 9	0.282 11	0.000 1	0.060 1	0.000 6	0.035 11	0.000 5	0.000 6	0.097 11	0.000 6	0.000 4	0.005 6	0.000 1	0.000 1	0.096 11	0.000 1	0.334 10	0.000 1	0.000 7	0.274 10	0.000 1	0.513 11	0.000 1	0.000 1	0.280 5	0.194 4	0.897 7	0.000 5	0.000 5	0.000 1	0.000 5	0.000 1	0.108 7	0.279 11	0.189 10	0.141 11	0.059 10	0.272 2	0.307 11	0.445 4	0.003 6	0.000 1	0.353 10	0.000 2	0.026 1	0.000 7	0.581 9	0.001 1	0.000 1	0.000 1	0.093 11	0.002 3	0.000 2	0.000 6	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
OA-CNN-L_ScanNet200	0.333 5	0.558 2	0.269 5	0.124 7	0.821 2	0.703 1	0.946 3	0.569 2	0.662 2	0.748 5	0.487 2	0.455 1	0.572 4	0.000 9	0.789 4	0.534 5	0.736 5	0.271 3	0.713 2	0.949 3	0.498 10	0.877 2	0.860 5	0.332 3	0.706 1	0.474 1	0.788 5	0.406 7	0.637 3	0.495 5	0.355 6	0.805 3	0.592 9	0.015 10	0.396 2	0.602 5	0.000 1	0.799 5	0.876 4	0.713 11	0.276 1	0.000 7	0.493 7	0.080 5	0.448 9	0.363 2	0.661 2	0.833 5	0.262 3	0.125 3	0.823 6	0.665 5	0.076 6	0.720 3	0.557 5	0.637 6	0.517 5	0.672 8	0.227 5	0.000 3	0.158 7	0.496 4	0.843 8	0.352 6	0.835 7	0.000 3	0.103 9	0.711 2	0.527 2	0.526 4	0.320 4	0.000 1	0.568 3	0.625 6	0.067 1	0.000 6	0.000 1	0.001 2	0.806 3	0.836 5	0.621 6	0.591 4	0.373 5	0.314 4	0.668 4	0.398 5	0.003 2	0.000 4	0.000 1	0.016 10	0.024 2	0.043 9	0.906 4	0.000 1	0.052 4	0.000 7	0.384 6	0.330 8	0.342 5	0.100 6	0.223 4	0.183 7	0.112 4	0.476 4	0.313 4	0.130 6	0.196 2	0.112 6	0.370 8	0.000 1	0.234 6	0.071 6	0.160 3	0.403 3	0.398 8	0.492 9	0.197 2	0.076 8	0.272 3	0.000 1	0.200 11	0.560 5	0.735 3	0.000 1	0.000 6	0.000 6	0.110 4	0.002 4	0.021 5	0.412 5	0.000 6	0.000 4	0.000 7	0.000 1	0.000 1	0.794 6	0.000 1	0.445 2	0.000 1	0.022 5	0.509 5	0.000 1	0.517 10	0.000 1	0.000 1	0.001 11	0.245 2	0.915 4	0.024 2	0.089 2	0.000 1	0.262 2	0.000 1	0.103 8	0.524 4	0.392 7	0.515 2	0.013 11	0.251 4	0.411 9	0.662 1	0.001 7	0.000 1	0.473 7	0.000 2	0.000 2	0.150 4	0.699 5	0.000 2	0.000 1	0.000 1	0.166 4	0.000 4	0.024 1	0.000 6	0.000 1

This table lists the benchmark results for the ScanNet200 3D semantic instance scenario.

Method	avg	chair	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	armchair	coffee table	box	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	ottoman	bench	board	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	rail	radiator	recycling bin	wardrobe	soap dispenser	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	guitar	toilet paper holder	seat	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	fireplace	soap dish	kitchen counter	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	shower door	pillar	ledge	toilet seat cover dispenser	cart	tissue box	light switch	crate	power outlet	decoration	projector	closet door	vacuum cleaner	candle	stuffed animal	headphones	dish rack	broom	guitar case	range hood	dustpan	water bottle	vent	mailbox	bowl	paper bag	alarm clock	music stand	projector screen	laundry detergent	bathroom counter	bathroom vanity	laundry hamper	bathroom stall door	trash bin	dumbbell	stair rail	tube	bathroom cabinet	cd case	closet rod	coffee kettle	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster	potted plant	luggage	mattress

Mask3D Scannet200	0.388 1	0.542 1	0.357 1	0.237 1	0.808 2	0.676 2	0.741 1	0.832 4	0.496 1	0.151 3	0.628 2	0.021 2	0.955 1	0.578 1	0.753 1	0.612 1	0.591 1	0.822 5	0.609 3	0.926 1	0.614 3	0.291 1	0.725 4	0.163 1	0.890 2	0.380 5	0.615 1	0.517 1	0.130 3	0.806 1	0.857 2	0.024 2	0.511 1	0.412 5	0.226 1	0.597 2	0.756 1	1.000 1	0.111 1	0.792 1	0.736 1	0.091 1	0.610 1	0.527 2	0.323 4	1.000 1	0.504 1	0.063 2	1.000 1	0.853 1	0.010 1	0.974 3	0.839 1	0.667 1	0.301 1	0.883 1	0.266 1	0.039 1	0.640 1	0.311 2	0.739 2	0.463 1	1.000 1	0.000 1	0.287 2	0.715 2	0.313 2	0.600 1	1.000 1	0.027 1	0.076 4	0.502 5	0.500 1	0.409 1	0.000 1	0.194 1	0.125 2	0.500 1	0.491 1	0.748 1	0.050 4	0.042 2	0.776 2	0.352 1	0.008 1	0.000 1	0.033 1	0.254 1	0.000 1	0.005 2	0.552 1	0.008 2	0.020 2	0.750 1	0.500 1	0.409 2	0.065 3	0.511 1	0.107 1	0.178 2	0.000 1	1.000 1	0.400 1	0.016 1	0.000 1	0.400 1	0.571 1	0.000 1	0.060 2	0.044 2	0.000 1	0.514 1	0.278 1	1.000 1	0.258 1	0.017 3	0.125 5	0.000 1	0.792 3	0.399 3	1.000 1	0.000 1	0.013 2	0.265 1	0.018 2	0.000 2	1.000 1	0.335 1	0.381 1	0.500 1	0.250 1	0.004 2	0.000 1	0.727 1	0.000 1	0.497 1	0.000 1	0.188 1	0.677 2	0.000 1	0.708 2	0.000 1	0.000 1	0.945 1	0.391 1	0.123 4	0.000 1	0.028 1	0.000 1	1.000 1	0.000 1	0.099 1	0.451 1	0.400 1	0.668 1	0.573 1	0.606 1	0.077 5	0.003 4	0.004 1	0.000 1	0.042 3	0.000 1	0.000 1	1.000 1	1.000 1	0.000 1	0.042 1	0.000 2	0.200 2	0.302 1	0.000 2	1.000 1	0.000 1
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
Minkowski 34D Inst.	0.203 5	0.369 4	0.134 5	0.078 5	0.706 4	0.382 4	0.693 3	0.845 3	0.221 5	0.150 4	0.158 4	0.000 3	0.746 2	0.369 4	0.545 4	0.595 2	0.387 4	0.997 3	0.413 5	0.720 5	0.636 2	0.165 3	0.732 3	0.070 4	0.851 4	0.402 4	0.251 4	0.313 4	0.123 4	0.583 4	0.696 3	0.000 3	0.051 5	0.500 2	0.000 3	0.500 4	0.372 5	0.667 4	0.009 4	0.000 3	0.307 5	0.003 4	0.479 4	0.107 5	0.226 5	0.903 4	0.109 5	0.031 3	0.981 3	0.726 5	0.000 2	0.522 5	0.669 2	0.282 5	0.052 5	0.778 5	0.000 4	0.000 3	0.400 3	0.074 4	0.333 4	0.218 4	1.000 1	0.000 1	0.250 3	0.406 5	0.118 5	0.317 2	0.100 3	0.000 2	0.191 1	0.596 2	0.000 3	0.000 2	0.000 1	0.000 2	0.000 3	0.500 1	0.178 5	0.701 2	0.000 5	0.000 3	0.522 5	0.018 5	0.000 2	0.000 1	0.000 3	0.060 4	0.000 1	0.000 3	0.033 5	0.000 3	0.000 3	0.000 4	0.000 2	0.281 3	0.100 2	0.000 5	0.090 4	0.133 4	0.000 1	0.422 5	0.050 4	0.000 2	0.000 1	0.200 3	0.000 5	0.000 1	0.000 3	0.000 3	0.000 1	0.000 4	0.123 4	0.677 2	0.021 4	0.000 4	0.500 1	0.000 1	0.500 4	0.442 2	0.125 5	0.000 1	0.000 3	0.000 3	0.000 3	0.000 2	0.000 3	0.056 4	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.200 5	0.000 1	0.143 5	0.000 1	0.000 3	0.250 5	0.000 1	0.511 4	0.000 1	0.000 1	0.286 3	0.083 4	0.396 2	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.025 4	0.300 2	0.000 3	0.371 3	0.070 2	0.000 4	0.385 3	0.000 5	0.000 2	0.000 1	0.000 5	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	0.000 2	0.200 2	0.000 2	0.000 2	0.000 2	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
TD3D Scannet200	0.320 2	0.501 2	0.264 2	0.164 2	0.841 1	0.679 1	0.716 2	0.879 2	0.280 3	0.192 1	0.634 1	0.231 1	0.733 3	0.459 2	0.565 3	0.498 5	0.560 2	1.000 1	0.686 1	0.890 2	0.708 1	0.123 4	0.820 1	0.152 2	0.967 1	0.456 1	0.458 2	0.387 2	0.194 1	0.435 5	0.906 1	0.077 1	0.396 2	0.509 1	0.217 2	0.715 1	0.619 2	1.000 1	0.099 2	0.792 1	0.513 2	0.062 2	0.506 3	0.549 1	0.605 1	1.000 1	0.123 4	0.106 1	1.000 1	0.744 4	0.000 2	1.000 1	0.504 5	0.525 2	0.185 2	0.790 4	0.101 2	0.008 2	0.587 2	0.356 1	0.817 1	0.083 5	1.000 1	0.000 1	0.621 1	0.842 1	0.415 1	0.268 4	0.083 4	0.000 2	0.098 3	0.881 1	0.125 2	0.000 2	0.000 1	0.000 2	0.000 3	0.125 4	0.332 3	0.448 5	0.202 2	0.196 1	0.798 1	0.264 2	0.000 2	0.000 1	0.017 2	0.233 2	0.000 1	0.063 1	0.333 2	0.038 1	0.111 1	0.250 3	0.000 2	0.516 1	0.208 1	0.470 2	0.094 3	0.218 1	0.000 1	0.667 2	0.033 5	0.000 2	0.000 1	0.400 1	0.156 2	0.000 1	0.267 1	0.226 1	0.000 1	0.104 2	0.159 2	0.299 5	0.095 3	0.458 1	0.500 1	0.000 1	1.000 1	0.472 1	0.792 3	0.000 1	0.022 1	0.061 2	0.250 1	0.008 1	0.250 2	0.333 2	0.143 2	0.396 2	0.049 2	0.012 1	0.000 1	0.283 4	0.000 1	0.241 4	0.000 1	0.101 2	0.331 4	0.000 1	0.629 3	0.000 1	0.000 1	0.857 2	0.222 3	0.677 1	0.000 1	0.003 2	0.000 1	0.000 2	0.000 1	0.076 2	0.252 3	0.400 1	0.431 2	0.061 3	0.328 3	0.331 4	0.500 1	0.000 2	0.000 1	0.167 1	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	1.000 1	0.542 1	0.000 2	0.063 1	0.000 2	0.000 1
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
CSC-Pretrain Inst.	0.209 4	0.361 5	0.157 4	0.085 4	0.700 5	0.248 5	0.634 5	0.776 5	0.322 2	0.135 5	0.103 5	0.000 3	0.524 5	0.364 5	0.618 2	0.592 3	0.381 5	0.997 3	0.589 4	0.747 4	0.340 5	0.109 5	0.768 2	0.059 5	0.702 5	0.448 2	0.188 5	0.149 5	0.091 5	0.636 3	0.573 5	0.000 3	0.246 3	0.500 2	0.000 3	0.450 5	0.405 3	0.667 4	0.006 5	0.000 3	0.356 4	0.007 3	0.506 2	0.420 3	0.340 3	0.667 5	0.294 2	0.004 4	0.571 4	0.748 2	0.000 2	1.000 1	0.573 4	0.502 4	0.094 4	0.807 3	0.000 4	0.000 3	0.400 3	0.000 5	0.278 5	0.228 3	1.000 1	0.000 1	0.115 5	0.432 4	0.198 3	0.050 5	0.125 2	0.000 2	0.000 5	0.573 3	0.000 3	0.000 2	0.000 1	0.000 2	0.000 3	0.125 4	0.312 4	0.610 3	0.221 1	0.000 3	0.667 4	0.050 4	0.000 2	0.000 1	0.000 3	0.032 5	0.000 1	0.000 3	0.083 3	0.000 3	0.000 3	0.000 4	0.000 2	0.220 4	0.000 5	0.125 3	0.000 5	0.111 5	0.000 1	0.667 2	0.200 3	0.000 2	0.000 1	0.000 4	0.110 3	0.000 1	0.000 3	0.000 3	0.000 1	0.000 4	0.053 5	0.500 4	0.000 5	0.000 4	0.500 1	0.000 1	0.500 4	0.333 4	0.500 4	0.000 1	0.000 3	0.000 3	0.000 3	0.000 2	0.000 3	0.000 5	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.600 2	0.000 1	0.364 2	0.000 1	0.000 3	0.750 1	0.000 1	0.833 1	0.000 1	0.000 1	0.143 5	0.000 5	0.396 2	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.021 5	0.221 4	0.000 3	0.093 5	0.055 4	0.451 2	0.677 2	0.125 2	0.000 2	0.000 1	0.028 4	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	0.000 2	0.050 4	0.000 2	0.000 2	0.000 2	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
LGround Inst.	0.246 3	0.413 3	0.170 3	0.130 3	0.754 3	0.541 3	0.682 4	0.903 1	0.264 4	0.164 2	0.234 3	0.000 3	0.681 4	0.452 3	0.464 5	0.541 4	0.399 3	1.000 1	0.637 2	0.772 3	0.588 4	0.190 2	0.589 5	0.081 3	0.857 3	0.426 3	0.373 3	0.318 3	0.135 2	0.690 2	0.653 4	0.000 3	0.159 4	0.500 2	0.000 3	0.581 3	0.387 4	1.000 1	0.046 3	0.000 3	0.402 3	0.003 5	0.455 5	0.196 4	0.571 2	1.000 1	0.270 3	0.003 5	0.530 5	0.748 3	0.000 2	0.744 4	0.575 3	0.511 3	0.112 3	0.815 2	0.067 3	0.000 3	0.400 3	0.167 3	0.667 3	0.241 2	1.000 1	0.000 1	0.208 4	0.660 3	0.125 4	0.317 2	0.000 5	0.000 2	0.100 2	0.561 4	0.000 3	0.000 2	0.000 1	0.000 2	1.000 1	0.500 1	0.344 2	0.568 4	0.167 3	0.000 3	0.706 3	0.068 3	0.000 2	0.000 1	0.000 3	0.063 3	0.000 1	0.000 3	0.056 4	0.000 3	0.000 3	0.500 2	0.000 2	0.143 5	0.017 4	0.125 3	0.097 2	0.164 3	0.000 1	0.582 4	0.400 1	0.000 2	0.000 1	0.000 4	0.083 4	0.000 1	0.000 3	0.000 3	0.000 1	0.025 3	0.156 3	0.533 3	0.250 2	0.200 2	0.500 1	0.000 1	1.000 1	0.333 4	1.000 1	0.000 1	0.000 3	0.000 3	0.000 3	0.000 2	0.000 3	0.333 2	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.400 3	0.000 1	0.364 2	0.000 1	0.000 3	0.500 3	0.000 1	0.511 4	0.000 1	0.000 1	0.286 3	0.333 2	0.000 5	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.034 3	0.111 5	0.000 3	0.333 4	0.031 5	0.000 4	0.750 1	0.125 2	0.000 2	0.000 1	0.151 2	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	0.000 2	0.000 5	0.000 2	0.000 2	0.000 2	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild.

ScanNet Benchmark

This table lists the benchmark results for the 3D semantic label scenario.

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

PTv3 ScanNet	0.794 1	0.941 3	0.813 18	0.851 7	0.782 6	0.890 2	0.597 1	0.916 2	0.696 8	0.713 3	0.979 1	0.635 1	0.384 2	0.793 2	0.907 8	0.821 4	0.790 30	0.696 11	0.967 3	0.903 1	0.805 1
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
PonderV2	0.785 2	0.978 1	0.800 26	0.833 22	0.788 4	0.853 16	0.545 16	0.910 5	0.713 1	0.705 4	0.979 1	0.596 7	0.390 1	0.769 11	0.832 41	0.821 4	0.792 29	0.730 1	0.975 1	0.897 4	0.785 4
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
Mix3D	0.781 3	0.964 2	0.855 1	0.843 16	0.781 7	0.858 12	0.575 6	0.831 32	0.685 14	0.714 2	0.979 1	0.594 8	0.310 26	0.801 1	0.892 16	0.841 2	0.819 4	0.723 4	0.940 13	0.887 6	0.725 23
Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann: Mix3D: Out-of-Context Data Augmentation for 3D Scenes. 3DV 2021 (Oral)
Swin3D	0.779 4	0.861 20	0.818 14	0.836 19	0.790 3	0.875 4	0.576 5	0.905 6	0.704 5	0.739 1	0.969 10	0.611 2	0.349 10	0.756 21	0.958 1	0.702 44	0.805 14	0.708 7	0.916 31	0.898 3	0.801 2

TTT-KD	0.773 5	0.646 90	0.818 14	0.809 34	0.774 9	0.878 3	0.581 2	0.943 1	0.687 12	0.704 5	0.978 4	0.607 5	0.336 15	0.775 8	0.912 6	0.838 3	0.823 2	0.694 12	0.967 3	0.899 2	0.794 3
Lisa Weijler, Muhammad Jehanzeb Mirza, Leon Sick, Can Ekkazan, Pedro Hermosilla: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models.
ResLFE_HDS	0.772 6	0.939 4	0.824 6	0.854 6	0.771 10	0.840 30	0.564 10	0.900 8	0.686 13	0.677 11	0.961 16	0.537 30	0.348 11	0.769 11	0.903 10	0.785 10	0.815 6	0.676 21	0.939 14	0.880 11	0.772 8

PPT-SpUNet-Joint	0.766 7	0.932 5	0.794 32	0.829 24	0.751 22	0.854 14	0.540 20	0.903 7	0.630 33	0.672 14	0.963 14	0.565 21	0.357 8	0.788 3	0.900 12	0.737 25	0.802 15	0.685 16	0.950 7	0.887 6	0.780 5
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer	0.766 7	0.925 7	0.808 22	0.849 9	0.786 5	0.846 26	0.566 9	0.876 14	0.690 10	0.674 13	0.960 17	0.576 17	0.226 66	0.753 23	0.904 9	0.777 12	0.815 6	0.722 5	0.923 27	0.877 13	0.776 7
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
CU-Hybrid Net	0.764 9	0.924 8	0.819 12	0.840 17	0.757 17	0.853 16	0.580 3	0.848 25	0.709 3	0.643 23	0.958 20	0.587 12	0.295 32	0.753 23	0.884 20	0.758 19	0.815 6	0.725 3	0.927 24	0.867 21	0.743 14

OccuSeg+Semantic	0.764 9	0.758 58	0.796 30	0.839 18	0.746 24	0.907 1	0.562 11	0.850 24	0.680 16	0.672 14	0.978 4	0.610 3	0.335 17	0.777 6	0.819 44	0.847 1	0.830 1	0.691 14	0.972 2	0.885 8	0.727 21

O-CNN	0.762 11	0.924 8	0.823 7	0.844 15	0.770 11	0.852 18	0.577 4	0.847 27	0.711 2	0.640 27	0.958 20	0.592 9	0.217 72	0.762 16	0.888 17	0.758 19	0.813 10	0.726 2	0.932 22	0.868 20	0.744 13
Peng-Shuai Wang, Yang Liu, Yu-Xiao Guo, Chun-Yu Sun, Xin Tong: O-CNN: Octree-based Convolutional Neural Networks for 3D Shape Analysis. SIGGRAPH 2017
DTC	0.757 12	0.843 26	0.820 10	0.847 12	0.791 2	0.862 10	0.511 32	0.870 16	0.707 4	0.652 19	0.954 34	0.604 6	0.279 43	0.760 17	0.942 2	0.734 26	0.766 43	0.701 10	0.884 53	0.874 18	0.736 15

OA-CNN-L_ScanNet20	0.756 13	0.783 44	0.826 5	0.858 4	0.776 8	0.837 33	0.548 15	0.896 11	0.649 25	0.675 12	0.962 15	0.586 13	0.335 17	0.771 10	0.802 48	0.770 15	0.787 32	0.691 14	0.936 17	0.880 11	0.761 10

ConDaFormer	0.755 14	0.927 6	0.822 8	0.836 19	0.801 1	0.849 21	0.516 30	0.864 21	0.651 24	0.680 10	0.958 20	0.584 15	0.282 40	0.759 19	0.855 31	0.728 28	0.802 15	0.678 18	0.880 58	0.873 19	0.756 11
Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Guisong Xia, Dacheng Tao: ConDaFormer : Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding. Neurips, 2023
PNE	0.755 14	0.786 42	0.835 4	0.834 21	0.758 15	0.849 21	0.570 8	0.836 31	0.648 26	0.668 16	0.978 4	0.581 16	0.367 6	0.683 34	0.856 29	0.804 6	0.801 19	0.678 18	0.961 5	0.889 5	0.716 28
P. Hermosilla: Point Neighborhood Embeddings.
DMF-Net	0.752 16	0.906 12	0.793 34	0.802 40	0.689 39	0.825 45	0.556 12	0.867 17	0.681 15	0.602 43	0.960 17	0.555 26	0.365 7	0.779 5	0.859 26	0.747 22	0.795 26	0.717 6	0.917 30	0.856 29	0.764 9
C.Yang, Y.Yan, W.Zhao, J.Ye, X.Yang, A.Hussain, B.Dong, K.Huang: Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic Segmentation. ICONIP 2023
PointTransformerV2	0.752 16	0.742 66	0.809 21	0.872 1	0.758 15	0.860 11	0.552 13	0.891 12	0.610 40	0.687 6	0.960 17	0.559 24	0.304 29	0.766 14	0.926 4	0.767 16	0.797 22	0.644 32	0.942 11	0.876 16	0.722 25
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao: Point Transformer V2: Grouped Vector Attention and Partition-based Pooling. NeurIPS 2022
PointConvFormer	0.749 18	0.793 40	0.790 35	0.807 36	0.750 23	0.856 13	0.524 26	0.881 13	0.588 52	0.642 26	0.977 8	0.591 10	0.274 46	0.781 4	0.929 3	0.804 6	0.796 23	0.642 33	0.947 9	0.885 8	0.715 29
Wenxuan Wu, Qi Shan, Li Fuxin: PointConvFormer: Revenge of the Point-based Convolution.
BPNet	0.749 18	0.909 10	0.818 14	0.811 32	0.752 20	0.839 32	0.485 46	0.842 28	0.673 17	0.644 22	0.957 24	0.528 36	0.305 28	0.773 9	0.859 26	0.788 8	0.818 5	0.693 13	0.916 31	0.856 29	0.723 24
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MSP	0.748 20	0.623 93	0.804 24	0.859 3	0.745 25	0.824 47	0.501 36	0.912 4	0.690 10	0.685 8	0.956 25	0.567 20	0.320 23	0.768 13	0.918 5	0.720 33	0.802 15	0.676 21	0.921 28	0.881 10	0.779 6

StratifiedFormer	0.747 21	0.901 13	0.803 25	0.845 14	0.757 17	0.846 26	0.512 31	0.825 35	0.696 8	0.645 21	0.956 25	0.576 17	0.262 57	0.744 28	0.861 25	0.742 23	0.770 41	0.705 8	0.899 43	0.860 26	0.734 16
Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia: Stratified Transformer for 3D Point Cloud Segmentation. CVPR 2022
VMNet	0.746 22	0.870 18	0.838 2	0.858 4	0.729 30	0.850 20	0.501 36	0.874 15	0.587 53	0.658 18	0.956 25	0.564 22	0.299 30	0.765 15	0.900 12	0.716 36	0.812 11	0.631 38	0.939 14	0.858 27	0.709 30
Zeyu HU, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai: VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation. ICCV 2021 (Oral)
Virtual MVFusion	0.746 22	0.771 52	0.819 12	0.848 11	0.702 36	0.865 9	0.397 84	0.899 9	0.699 6	0.664 17	0.948 54	0.588 11	0.330 19	0.746 27	0.851 35	0.764 17	0.796 23	0.704 9	0.935 18	0.866 22	0.728 19
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
Retro-FPN	0.744 24	0.842 27	0.800 26	0.767 54	0.740 26	0.836 35	0.541 18	0.914 3	0.672 18	0.626 31	0.958 20	0.552 27	0.272 48	0.777 6	0.886 19	0.696 45	0.801 19	0.674 24	0.941 12	0.858 27	0.717 26
Peng Xiang, Xin Wen, Yu-Shen Liu, Hui Zhang, Yi Fang, Zhizhong Han: Retrospective Feature Pyramid Network for Point Cloud Semantic Segmentation. ICCV 2023
EQ-Net	0.743 25	0.620 94	0.799 29	0.849 9	0.730 29	0.822 49	0.493 43	0.897 10	0.664 19	0.681 9	0.955 28	0.562 23	0.378 3	0.760 17	0.903 10	0.738 24	0.801 19	0.673 25	0.907 35	0.877 13	0.745 12
Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya JIa: A Unified Query-based Paradigm for Point Cloud Understanding. CVPR 2022
SAT	0.742 26	0.860 21	0.765 48	0.819 27	0.769 12	0.848 23	0.533 22	0.829 33	0.663 20	0.631 30	0.955 28	0.586 13	0.274 46	0.753 23	0.896 14	0.729 27	0.760 49	0.666 27	0.921 28	0.855 31	0.733 17

LRPNet	0.742 26	0.816 35	0.806 23	0.807 36	0.752 20	0.828 43	0.575 6	0.839 30	0.699 6	0.637 28	0.954 34	0.520 39	0.320 23	0.755 22	0.834 39	0.760 18	0.772 38	0.676 21	0.915 33	0.862 24	0.717 26

LargeKernel3D	0.739 28	0.909 10	0.820 10	0.806 38	0.740 26	0.852 18	0.545 16	0.826 34	0.594 51	0.643 23	0.955 28	0.541 29	0.263 56	0.723 32	0.858 28	0.775 14	0.767 42	0.678 18	0.933 20	0.848 36	0.694 35
Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia: LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs. CVPR 2023
MinkowskiNet	0.736 29	0.859 22	0.818 14	0.832 23	0.709 34	0.840 30	0.521 28	0.853 23	0.660 22	0.643 23	0.951 44	0.544 28	0.286 38	0.731 30	0.893 15	0.675 54	0.772 38	0.683 17	0.874 65	0.852 34	0.727 21
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
RPN	0.736 29	0.776 48	0.790 35	0.851 7	0.754 19	0.854 14	0.491 45	0.866 19	0.596 50	0.686 7	0.955 28	0.536 31	0.342 13	0.624 49	0.869 22	0.787 9	0.802 15	0.628 39	0.927 24	0.875 17	0.704 32

IPCA	0.731 31	0.890 14	0.837 3	0.864 2	0.726 31	0.873 5	0.530 25	0.824 36	0.489 86	0.647 20	0.978 4	0.609 4	0.336 15	0.624 49	0.733 57	0.758 19	0.776 36	0.570 64	0.949 8	0.877 13	0.728 19

SparseConvNet	0.725 32	0.647 89	0.821 9	0.846 13	0.721 32	0.869 6	0.533 22	0.754 57	0.603 46	0.614 35	0.955 28	0.572 19	0.325 21	0.710 33	0.870 21	0.724 31	0.823 2	0.628 39	0.934 19	0.865 23	0.683 38

PointTransformer++	0.725 32	0.727 74	0.811 20	0.819 27	0.765 13	0.841 29	0.502 35	0.814 41	0.621 36	0.623 33	0.955 28	0.556 25	0.284 39	0.620 51	0.866 23	0.781 11	0.757 53	0.648 30	0.932 22	0.862 24	0.709 30

MatchingNet	0.724 34	0.812 37	0.812 19	0.810 33	0.735 28	0.834 37	0.495 42	0.860 22	0.572 60	0.602 43	0.954 34	0.512 41	0.280 42	0.757 20	0.845 37	0.725 30	0.780 34	0.606 49	0.937 16	0.851 35	0.700 34

INS-Conv-semantic	0.717 35	0.751 61	0.759 51	0.812 31	0.704 35	0.868 7	0.537 21	0.842 28	0.609 42	0.608 39	0.953 38	0.534 33	0.293 33	0.616 52	0.864 24	0.719 35	0.793 27	0.640 34	0.933 20	0.845 40	0.663 44

PointMetaBase	0.714 36	0.835 28	0.785 37	0.821 25	0.684 41	0.846 26	0.531 24	0.865 20	0.614 37	0.596 47	0.953 38	0.500 44	0.246 62	0.674 35	0.888 17	0.692 46	0.764 45	0.624 41	0.849 80	0.844 41	0.675 40

contrastBoundary	0.705 37	0.769 55	0.775 42	0.809 34	0.687 40	0.820 52	0.439 72	0.812 42	0.661 21	0.591 49	0.945 62	0.515 40	0.171 90	0.633 46	0.856 29	0.720 33	0.796 23	0.668 26	0.889 50	0.847 37	0.689 36
Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao: Contrastive Boundary Learning for Point Cloud Segmentation. CVPR2022
ClickSeg_Semantic	0.703 38	0.774 50	0.800 26	0.793 45	0.760 14	0.847 25	0.471 50	0.802 45	0.463 93	0.634 29	0.968 12	0.491 47	0.271 50	0.726 31	0.910 7	0.706 40	0.815 6	0.551 76	0.878 59	0.833 42	0.570 76

RFCR	0.702 39	0.889 15	0.745 62	0.813 30	0.672 44	0.818 56	0.493 43	0.815 40	0.623 34	0.610 37	0.947 56	0.470 56	0.249 61	0.594 55	0.848 36	0.705 41	0.779 35	0.646 31	0.892 48	0.823 48	0.611 59
Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma: Omni-Supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning. CVPR2021
One Thing One Click	0.701 40	0.825 32	0.796 30	0.723 61	0.716 33	0.832 39	0.433 74	0.816 38	0.634 31	0.609 38	0.969 10	0.418 82	0.344 12	0.559 67	0.833 40	0.715 37	0.808 13	0.560 70	0.902 40	0.847 37	0.680 39

JSENet	0.699 41	0.881 17	0.762 49	0.821 25	0.667 45	0.800 68	0.522 27	0.792 48	0.613 38	0.607 40	0.935 82	0.492 46	0.205 77	0.576 60	0.853 33	0.691 48	0.758 51	0.652 29	0.872 68	0.828 45	0.649 48
Zeyu HU, Mingmin Zhen, Xuyang BAI, Hongbo Fu, Chiew-lan Tai: JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D Point Clouds. ECCV 2020
One-Thing-One-Click	0.693 42	0.743 65	0.794 32	0.655 84	0.684 41	0.822 49	0.497 41	0.719 67	0.622 35	0.617 34	0.977 8	0.447 69	0.339 14	0.750 26	0.664 73	0.703 43	0.790 30	0.596 54	0.946 10	0.855 31	0.647 49
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
PicassoNet-II	0.692 43	0.732 70	0.772 43	0.786 46	0.677 43	0.866 8	0.517 29	0.848 25	0.509 79	0.626 31	0.952 42	0.536 31	0.225 68	0.545 73	0.704 64	0.689 51	0.810 12	0.564 69	0.903 39	0.854 33	0.729 18
Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian: Geometric feature learning for 3D meshes.
Feature_GeometricNet	0.690 44	0.884 16	0.754 55	0.795 43	0.647 52	0.818 56	0.422 76	0.802 45	0.612 39	0.604 41	0.945 62	0.462 59	0.189 85	0.563 66	0.853 33	0.726 29	0.765 44	0.632 37	0.904 37	0.821 51	0.606 63
Kangcheng Liu, Ben M. Chen: https://arxiv.org/abs/2012.09439. arXiv Preprint
FusionNet	0.688 45	0.704 79	0.741 66	0.754 58	0.656 47	0.829 41	0.501 36	0.741 62	0.609 42	0.548 57	0.950 48	0.522 38	0.371 4	0.633 46	0.756 52	0.715 37	0.771 40	0.623 42	0.861 76	0.814 54	0.658 45
Feihu Zhang, Jin Fang, Benjamin Wah, Philip Torr: Deep FusionNet for Point Cloud Semantic Segmentation. ECCV 2020
Feature-Geometry Net	0.685 46	0.866 19	0.748 59	0.819 27	0.645 54	0.794 71	0.450 62	0.802 45	0.587 53	0.604 41	0.945 62	0.464 58	0.201 80	0.554 69	0.840 38	0.723 32	0.732 63	0.602 52	0.907 35	0.822 50	0.603 66

KP-FCNN	0.684 47	0.847 25	0.758 53	0.784 48	0.647 52	0.814 59	0.473 49	0.772 51	0.605 44	0.594 48	0.935 82	0.450 67	0.181 88	0.587 56	0.805 47	0.690 49	0.785 33	0.614 45	0.882 55	0.819 52	0.632 55
H. Thomas, C. Qi, J. Deschaud, B. Marcotegui, F. Goulette, L. Guibas.: KPConv: Flexible and Deformable Convolution for Point Clouds. ICCV 2019
VACNN++	0.684 47	0.728 73	0.757 54	0.776 51	0.690 37	0.804 66	0.464 55	0.816 38	0.577 59	0.587 50	0.945 62	0.508 43	0.276 45	0.671 36	0.710 62	0.663 59	0.750 57	0.589 59	0.881 56	0.832 44	0.653 47

DGNet	0.684 47	0.712 78	0.784 38	0.782 50	0.658 46	0.835 36	0.499 40	0.823 37	0.641 28	0.597 46	0.950 48	0.487 49	0.281 41	0.575 61	0.619 77	0.647 67	0.764 45	0.620 44	0.871 71	0.846 39	0.688 37

PointContrast_LA_SEM	0.683 50	0.757 59	0.784 38	0.786 46	0.639 56	0.824 47	0.408 79	0.775 50	0.604 45	0.541 59	0.934 86	0.532 34	0.269 52	0.552 70	0.777 50	0.645 70	0.793 27	0.640 34	0.913 34	0.824 47	0.671 41

Superpoint Network	0.683 50	0.851 24	0.728 70	0.800 42	0.653 49	0.806 64	0.468 52	0.804 43	0.572 60	0.602 43	0.946 59	0.453 66	0.239 65	0.519 78	0.822 42	0.689 51	0.762 48	0.595 56	0.895 46	0.827 46	0.630 56

VI-PointConv	0.676 52	0.770 54	0.754 55	0.783 49	0.621 60	0.814 59	0.552 13	0.758 55	0.571 62	0.557 55	0.954 34	0.529 35	0.268 54	0.530 76	0.682 68	0.675 54	0.719 66	0.603 51	0.888 51	0.833 42	0.665 43
Xingyi Li, Wenxuan Wu, Xiaoli Z. Fern, Li Fuxin: The Devils in the Point Clouds: Studying the Robustness of Point Cloud Convolutions.
ROSMRF3D	0.673 53	0.789 41	0.748 59	0.763 56	0.635 58	0.814 59	0.407 81	0.747 59	0.581 57	0.573 52	0.950 48	0.484 50	0.271 50	0.607 53	0.754 53	0.649 64	0.774 37	0.596 54	0.883 54	0.823 48	0.606 63

SALANet	0.670 54	0.816 35	0.770 46	0.768 53	0.652 50	0.807 63	0.451 59	0.747 59	0.659 23	0.545 58	0.924 92	0.473 55	0.149 100	0.571 63	0.811 46	0.635 73	0.746 58	0.623 42	0.892 48	0.794 67	0.570 76

O3DSeg	0.668 55	0.822 33	0.771 45	0.496 104	0.651 51	0.833 38	0.541 18	0.761 54	0.555 68	0.611 36	0.966 13	0.489 48	0.370 5	0.388 98	0.580 80	0.776 13	0.751 55	0.570 64	0.956 6	0.817 53	0.646 50

PointConv	0.666 56	0.781 45	0.759 51	0.699 69	0.644 55	0.822 49	0.475 48	0.779 49	0.564 65	0.504 75	0.953 38	0.428 76	0.203 79	0.586 58	0.754 53	0.661 60	0.753 54	0.588 60	0.902 40	0.813 56	0.642 51
Wenxuan Wu, Zhongang Qi, Li Fuxin: PointConv: Deep Convolutional Networks on 3D Point Clouds. CVPR 2019
PointASNL	0.666 56	0.703 80	0.781 40	0.751 60	0.655 48	0.830 40	0.471 50	0.769 52	0.474 89	0.537 61	0.951 44	0.475 54	0.279 43	0.635 44	0.698 67	0.675 54	0.751 55	0.553 75	0.816 87	0.806 58	0.703 33
Xu Yan, Chaoda Zheng, Zhen Li, Sheng Wang, Shuguang Cui: PointASNL: Robust Point Clouds Processing using Nonlocal Neural Networks with Adaptive Sampling. CVPR 2020
PPCNN++	0.663 58	0.746 63	0.708 73	0.722 62	0.638 57	0.820 52	0.451 59	0.566 95	0.599 48	0.541 59	0.950 48	0.510 42	0.313 25	0.648 41	0.819 44	0.616 78	0.682 81	0.590 58	0.869 72	0.810 57	0.656 46
Pyunghwan Ahn, Juyoung Yang, Eojindl Yi, Chanho Lee, Junmo Kim: Projection-based Point Convolution for Efficient Point Cloud Segmentation. IEEE Access
MVF-GNN	0.658 59	0.558 101	0.751 57	0.655 84	0.690 37	0.722 93	0.453 58	0.867 17	0.579 58	0.576 51	0.893 104	0.523 37	0.293 33	0.733 29	0.571 82	0.692 46	0.659 88	0.606 49	0.875 62	0.804 60	0.668 42

DCM-Net	0.658 59	0.778 46	0.702 76	0.806 38	0.619 61	0.813 62	0.468 52	0.693 75	0.494 82	0.524 67	0.941 74	0.449 68	0.298 31	0.510 80	0.821 43	0.675 54	0.727 65	0.568 67	0.826 85	0.803 61	0.637 53
Jonas Schult, Francis Engelmann, Theodora Kontogianni, Bastian Leibe: DualConvMesh-Net: Joint Geodesic and Euclidean Convolutions on 3D Meshes. CVPR 2020 [Oral]
HPGCNN	0.656 61	0.698 82	0.743 64	0.650 86	0.564 78	0.820 52	0.505 34	0.758 55	0.631 32	0.479 79	0.945 62	0.480 52	0.226 66	0.572 62	0.774 51	0.690 49	0.735 61	0.614 45	0.853 79	0.776 82	0.597 69
Jisheng Dang, Qingyong Hu, Yulan Guo, Jun Yang: HPGCNN.
SAFNet-seg	0.654 62	0.752 60	0.734 68	0.664 82	0.583 73	0.815 58	0.399 83	0.754 57	0.639 29	0.535 63	0.942 72	0.470 56	0.309 27	0.665 37	0.539 84	0.650 63	0.708 71	0.635 36	0.857 78	0.793 69	0.642 51
Linqing Zhao, Jiwen Lu, Jie Zhou: Similarity-Aware Fusion Network for 3D Semantic Segmentation. IROS 2021
RandLA-Net	0.645 63	0.778 46	0.731 69	0.699 69	0.577 74	0.829 41	0.446 64	0.736 63	0.477 88	0.523 69	0.945 62	0.454 63	0.269 52	0.484 88	0.749 56	0.618 76	0.738 59	0.599 53	0.827 84	0.792 72	0.621 58

PointConv-SFPN	0.641 64	0.776 48	0.703 75	0.721 63	0.557 81	0.826 44	0.451 59	0.672 80	0.563 66	0.483 78	0.943 71	0.425 79	0.162 95	0.644 42	0.726 58	0.659 61	0.709 70	0.572 63	0.875 62	0.786 77	0.559 82

MVPNet	0.641 64	0.831 29	0.715 71	0.671 79	0.590 69	0.781 77	0.394 85	0.679 77	0.642 27	0.553 56	0.937 79	0.462 59	0.256 58	0.649 40	0.406 98	0.626 74	0.691 78	0.666 27	0.877 60	0.792 72	0.608 62
Maximilian Jaritz, Jiayuan Gu, Hao Su: Multi-view PointNet for 3D Scene Understanding. GMDL Workshop, ICCV 2019
PointMRNet	0.640 66	0.717 77	0.701 77	0.692 72	0.576 75	0.801 67	0.467 54	0.716 68	0.563 66	0.459 85	0.953 38	0.429 75	0.169 92	0.581 59	0.854 32	0.605 79	0.710 68	0.550 77	0.894 47	0.793 69	0.575 74

FPConv	0.639 67	0.785 43	0.760 50	0.713 67	0.603 64	0.798 69	0.392 86	0.534 100	0.603 46	0.524 67	0.948 54	0.457 61	0.250 60	0.538 74	0.723 60	0.598 83	0.696 76	0.614 45	0.872 68	0.799 62	0.567 79
Yiqun Lin, Zizheng Yan, Haibin Huang, Dong Du, Ligang Liu, Shuguang Cui, Xiaoguang Han: FPConv: Learning Local Flattening for Point Convolution. CVPR 2020
PD-Net	0.638 68	0.797 39	0.769 47	0.641 92	0.590 69	0.820 52	0.461 56	0.537 99	0.637 30	0.536 62	0.947 56	0.388 89	0.206 76	0.656 38	0.668 71	0.647 67	0.732 63	0.585 61	0.868 73	0.793 69	0.473 102

PointSPNet	0.637 69	0.734 69	0.692 84	0.714 66	0.576 75	0.797 70	0.446 64	0.743 61	0.598 49	0.437 90	0.942 72	0.403 85	0.150 99	0.626 48	0.800 49	0.649 64	0.697 75	0.557 73	0.846 81	0.777 81	0.563 80

SConv	0.636 70	0.830 30	0.697 80	0.752 59	0.572 77	0.780 79	0.445 66	0.716 68	0.529 72	0.530 64	0.951 44	0.446 70	0.170 91	0.507 83	0.666 72	0.636 72	0.682 81	0.541 83	0.886 52	0.799 62	0.594 70

Supervoxel-CNN	0.635 71	0.656 87	0.711 72	0.719 64	0.613 62	0.757 88	0.444 69	0.765 53	0.534 71	0.566 53	0.928 90	0.478 53	0.272 48	0.636 43	0.531 86	0.664 58	0.645 92	0.508 90	0.864 75	0.792 72	0.611 59

joint point-based	0.634 72	0.614 95	0.778 41	0.667 81	0.633 59	0.825 45	0.420 77	0.804 43	0.467 91	0.561 54	0.951 44	0.494 45	0.291 35	0.566 64	0.458 93	0.579 89	0.764 45	0.559 72	0.838 82	0.814 54	0.598 68
Hung-Yueh Chiang, Yen-Liang Lin, Yueh-Cheng Liu, Winston H. Hsu: A Unified Point-Based Framework for 3D Segmentation. 3DV 2019
PointMTL	0.632 73	0.731 71	0.688 87	0.675 76	0.591 68	0.784 76	0.444 69	0.565 96	0.610 40	0.492 76	0.949 52	0.456 62	0.254 59	0.587 56	0.706 63	0.599 82	0.665 87	0.612 48	0.868 73	0.791 75	0.579 73

3DSM_DMMF	0.631 74	0.626 92	0.745 62	0.801 41	0.607 63	0.751 89	0.506 33	0.729 66	0.565 64	0.491 77	0.866 107	0.434 71	0.197 83	0.595 54	0.630 76	0.709 39	0.705 73	0.560 70	0.875 62	0.740 92	0.491 97

PointNet2-SFPN	0.631 74	0.771 52	0.692 84	0.672 77	0.524 86	0.837 33	0.440 71	0.706 73	0.538 70	0.446 87	0.944 68	0.421 81	0.219 71	0.552 70	0.751 55	0.591 85	0.737 60	0.543 82	0.901 42	0.768 84	0.557 83

APCF-Net	0.631 74	0.742 66	0.687 89	0.672 77	0.557 81	0.792 74	0.408 79	0.665 81	0.545 69	0.508 72	0.952 42	0.428 76	0.186 86	0.634 45	0.702 65	0.620 75	0.706 72	0.555 74	0.873 66	0.798 64	0.581 72
Haojia, Lin: Adaptive Pyramid Context Fusion for Point Cloud Perception. GRSL
FusionAwareConv	0.630 77	0.604 97	0.741 66	0.766 55	0.590 69	0.747 90	0.501 36	0.734 64	0.503 81	0.527 65	0.919 96	0.454 63	0.323 22	0.550 72	0.420 97	0.678 53	0.688 79	0.544 80	0.896 45	0.795 66	0.627 57
Jiazhao Zhang, Chenyang Zhu, Lintao Zheng, Kai Xu: Fusion-Aware Point Convolution for Online Semantic 3D Scene Segmentation. CVPR 2020
DenSeR	0.628 78	0.800 38	0.625 100	0.719 64	0.545 83	0.806 64	0.445 66	0.597 89	0.448 96	0.519 70	0.938 78	0.481 51	0.328 20	0.489 87	0.499 91	0.657 62	0.759 50	0.592 57	0.881 56	0.797 65	0.634 54

SegGroup_sem	0.627 79	0.818 34	0.747 61	0.701 68	0.602 65	0.764 85	0.385 90	0.629 86	0.490 84	0.508 72	0.931 89	0.409 84	0.201 80	0.564 65	0.725 59	0.618 76	0.692 77	0.539 84	0.873 66	0.794 67	0.548 86
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
SIConv	0.625 80	0.830 30	0.694 82	0.757 57	0.563 79	0.772 83	0.448 63	0.647 84	0.520 75	0.509 71	0.949 52	0.431 74	0.191 84	0.496 85	0.614 78	0.647 67	0.672 85	0.535 86	0.876 61	0.783 78	0.571 75

dtc_net	0.625 80	0.703 80	0.751 57	0.794 44	0.535 84	0.848 23	0.480 47	0.676 79	0.528 73	0.469 82	0.944 68	0.454 63	0.004 113	0.464 90	0.636 75	0.704 42	0.758 51	0.548 79	0.924 26	0.787 76	0.492 96

HPEIN	0.618 82	0.729 72	0.668 90	0.647 88	0.597 67	0.766 84	0.414 78	0.680 76	0.520 75	0.525 66	0.946 59	0.432 72	0.215 73	0.493 86	0.599 79	0.638 71	0.617 97	0.570 64	0.897 44	0.806 58	0.605 65
Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi-Wing Fu, Jiaya Jia: Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation. ICCV 2019
SPH3D-GCN	0.610 83	0.858 23	0.772 43	0.489 105	0.532 85	0.792 74	0.404 82	0.643 85	0.570 63	0.507 74	0.935 82	0.414 83	0.046 110	0.510 80	0.702 65	0.602 81	0.705 73	0.549 78	0.859 77	0.773 83	0.534 89
Huan Lei, Naveed Akhtar, and Ajmal Mian: Spherical Kernel for Efficient Graph Convolution on 3D Point Clouds. TPAMI 2020
AttAN	0.609 84	0.760 57	0.667 91	0.649 87	0.521 87	0.793 72	0.457 57	0.648 83	0.528 73	0.434 92	0.947 56	0.401 86	0.153 98	0.454 91	0.721 61	0.648 66	0.717 67	0.536 85	0.904 37	0.765 85	0.485 98
Gege Zhang, Qinghua Ma, Licheng Jiao, Fang Liu and Qigong Sun: AttAN: Attention Adversarial Networks for 3D Point Cloud Semantic Segmentation. IJCAI2020
wsss-transformer	0.600 85	0.634 91	0.743 64	0.697 71	0.601 66	0.781 77	0.437 73	0.585 92	0.493 83	0.446 87	0.933 87	0.394 87	0.011 112	0.654 39	0.661 74	0.603 80	0.733 62	0.526 87	0.832 83	0.761 87	0.480 99

LAP-D	0.594 86	0.720 75	0.692 84	0.637 93	0.456 97	0.773 82	0.391 88	0.730 65	0.587 53	0.445 89	0.940 76	0.381 90	0.288 36	0.434 94	0.453 95	0.591 85	0.649 90	0.581 62	0.777 91	0.749 91	0.610 61

DPC	0.592 87	0.720 75	0.700 78	0.602 97	0.480 93	0.762 87	0.380 91	0.713 71	0.585 56	0.437 90	0.940 76	0.369 92	0.288 36	0.434 94	0.509 90	0.590 87	0.639 95	0.567 68	0.772 93	0.755 89	0.592 71
Francis Engelmann, Theodora Kontogianni, Bastian Leibe: Dilated Point Convolutions: On the Receptive Field Size of Point Convolutions on 3D Point Clouds. ICRA 2020
CCRFNet	0.589 88	0.766 56	0.659 95	0.683 74	0.470 96	0.740 92	0.387 89	0.620 88	0.490 84	0.476 80	0.922 94	0.355 95	0.245 63	0.511 79	0.511 89	0.571 90	0.643 93	0.493 94	0.872 68	0.762 86	0.600 67

ROSMRF	0.580 89	0.772 51	0.707 74	0.681 75	0.563 79	0.764 85	0.362 93	0.515 101	0.465 92	0.465 84	0.936 81	0.427 78	0.207 75	0.438 92	0.577 81	0.536 93	0.675 84	0.486 95	0.723 99	0.779 79	0.524 92

SD-DETR	0.576 90	0.746 63	0.609 104	0.445 109	0.517 88	0.643 104	0.366 92	0.714 70	0.456 94	0.468 83	0.870 106	0.432 72	0.264 55	0.558 68	0.674 69	0.586 88	0.688 79	0.482 96	0.739 97	0.733 94	0.537 88

SQN_0.1%	0.569 91	0.676 84	0.696 81	0.657 83	0.497 89	0.779 80	0.424 75	0.548 97	0.515 77	0.376 97	0.902 103	0.422 80	0.357 8	0.379 99	0.456 94	0.596 84	0.659 88	0.544 80	0.685 102	0.665 105	0.556 84

TextureNet	0.566 92	0.672 86	0.664 92	0.671 79	0.494 91	0.719 94	0.445 66	0.678 78	0.411 102	0.396 95	0.935 82	0.356 94	0.225 68	0.412 96	0.535 85	0.565 91	0.636 96	0.464 98	0.794 90	0.680 102	0.568 78
Jingwei Huang, Haotian Zhang, Li Yi, Thomas Funkerhouser, Matthias Niessner, Leonidas Guibas: TextureNet: Consistent Local Parametrizations for Learning from High-Resolution Signals on Meshes. CVPR
DVVNet	0.562 93	0.648 88	0.700 78	0.770 52	0.586 72	0.687 98	0.333 97	0.650 82	0.514 78	0.475 81	0.906 100	0.359 93	0.223 70	0.340 101	0.442 96	0.422 104	0.668 86	0.501 91	0.708 100	0.779 79	0.534 89

Pointnet++ & Feature	0.557 94	0.735 68	0.661 94	0.686 73	0.491 92	0.744 91	0.392 86	0.539 98	0.451 95	0.375 98	0.946 59	0.376 91	0.205 77	0.403 97	0.356 101	0.553 92	0.643 93	0.497 92	0.824 86	0.756 88	0.515 93

GMLPs	0.538 95	0.495 106	0.693 83	0.647 88	0.471 95	0.793 72	0.300 100	0.477 102	0.505 80	0.358 100	0.903 102	0.327 98	0.081 107	0.472 89	0.529 87	0.448 102	0.710 68	0.509 88	0.746 95	0.737 93	0.554 85

PanopticFusion-label	0.529 96	0.491 107	0.688 87	0.604 96	0.386 102	0.632 105	0.225 110	0.705 74	0.434 99	0.293 106	0.815 108	0.348 96	0.241 64	0.499 84	0.669 70	0.507 95	0.649 90	0.442 104	0.796 89	0.602 109	0.561 81
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
subcloud_weak	0.516 97	0.676 84	0.591 107	0.609 94	0.442 98	0.774 81	0.335 96	0.597 89	0.422 101	0.357 101	0.932 88	0.341 97	0.094 106	0.298 103	0.528 88	0.473 100	0.676 83	0.495 93	0.602 108	0.721 97	0.349 109

Online SegFusion	0.515 98	0.607 96	0.644 98	0.579 99	0.434 99	0.630 106	0.353 94	0.628 87	0.440 97	0.410 93	0.762 112	0.307 100	0.167 93	0.520 77	0.403 99	0.516 94	0.565 100	0.447 102	0.678 103	0.701 99	0.514 94
Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstroem, Cristian Sminchisescu, Luc van Gool: A Real-Time Learning Framework for Joint 3D Reconstruction and Semantic Segmentation. Robotics and Automation Letters Submission
3DMV, FTSDF	0.501 99	0.558 101	0.608 105	0.424 111	0.478 94	0.690 97	0.246 106	0.586 91	0.468 90	0.450 86	0.911 98	0.394 87	0.160 96	0.438 92	0.212 108	0.432 103	0.541 106	0.475 97	0.742 96	0.727 95	0.477 100

PCNN	0.498 100	0.559 100	0.644 98	0.560 101	0.420 101	0.711 96	0.229 108	0.414 103	0.436 98	0.352 102	0.941 74	0.324 99	0.155 97	0.238 108	0.387 100	0.493 96	0.529 107	0.509 88	0.813 88	0.751 90	0.504 95

Weakly-Openseg v3	0.489 101	0.749 62	0.664 92	0.646 90	0.496 90	0.559 110	0.122 113	0.577 93	0.257 113	0.364 99	0.805 109	0.198 111	0.096 105	0.510 80	0.496 92	0.361 108	0.563 101	0.359 111	0.777 91	0.644 106	0.532 91

3DMV	0.484 102	0.484 108	0.538 109	0.643 91	0.424 100	0.606 109	0.310 98	0.574 94	0.433 100	0.378 96	0.796 110	0.301 101	0.214 74	0.537 75	0.208 109	0.472 101	0.507 110	0.413 107	0.693 101	0.602 109	0.539 87
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
PointCNN with RGB	0.458 103	0.577 99	0.611 103	0.356 113	0.321 110	0.715 95	0.299 102	0.376 107	0.328 109	0.319 104	0.944 68	0.285 103	0.164 94	0.216 111	0.229 106	0.484 98	0.545 105	0.456 100	0.755 94	0.709 98	0.475 101
Yangyan Li, Rui Bu, Mingchao Sun, Baoquan Chen: PointCNN. NeurIPS 2018
FCPN	0.447 104	0.679 83	0.604 106	0.578 100	0.380 103	0.682 99	0.291 103	0.106 113	0.483 87	0.258 111	0.920 95	0.258 107	0.025 111	0.231 110	0.325 102	0.480 99	0.560 103	0.463 99	0.725 98	0.666 104	0.231 113
Dario Rethage, Johanna Wald, Jürgen Sturm, Nassir Navab, Federico Tombari: Fully-Convolutional Point Networks for Large-Scale Point Clouds. ECCV 2018
DGCNN_reproduce	0.446 105	0.474 109	0.623 101	0.463 107	0.366 105	0.651 102	0.310 98	0.389 106	0.349 107	0.330 103	0.937 79	0.271 105	0.126 102	0.285 104	0.224 107	0.350 110	0.577 99	0.445 103	0.625 106	0.723 96	0.394 105
Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E. Sarma, Michael M. Bronstein, Justin M. Solomon: Dynamic Graph CNN for Learning on Point Clouds. TOG 2019
PNET2	0.442 106	0.548 103	0.548 108	0.597 98	0.363 106	0.628 107	0.300 100	0.292 108	0.374 104	0.307 105	0.881 105	0.268 106	0.186 86	0.238 108	0.204 110	0.407 105	0.506 111	0.449 101	0.667 104	0.620 108	0.462 103

SurfaceConvPF	0.442 106	0.505 105	0.622 102	0.380 112	0.342 108	0.654 101	0.227 109	0.397 105	0.367 105	0.276 108	0.924 92	0.240 108	0.198 82	0.359 100	0.262 104	0.366 106	0.581 98	0.435 105	0.640 105	0.668 103	0.398 104
Hao Pan, Shilin Liu, Yang Liu, Xin Tong: Convolutional Neural Networks on 3D Surfaces Using Parallel Frames.
Tangent Convolutions	0.438 108	0.437 111	0.646 97	0.474 106	0.369 104	0.645 103	0.353 94	0.258 110	0.282 111	0.279 107	0.918 97	0.298 102	0.147 101	0.283 105	0.294 103	0.487 97	0.562 102	0.427 106	0.619 107	0.633 107	0.352 108
Maxim Tatarchenko, Jaesik Park, Vladlen Koltun, Qian-Yi Zhou: Tangent convolutions for dense prediction in 3d. CVPR 2018
3DWSSS	0.425 109	0.525 104	0.647 96	0.522 102	0.324 109	0.488 113	0.077 114	0.712 72	0.353 106	0.401 94	0.636 114	0.281 104	0.176 89	0.340 101	0.565 83	0.175 114	0.551 104	0.398 108	0.370 114	0.602 109	0.361 107

SPLAT Net	0.393 110	0.472 110	0.511 110	0.606 95	0.311 111	0.656 100	0.245 107	0.405 104	0.328 109	0.197 112	0.927 91	0.227 110	0.000 115	0.001 115	0.249 105	0.271 113	0.510 108	0.383 110	0.593 109	0.699 100	0.267 111
Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz: SPLATNet: Sparse Lattice Networks for Point Cloud Processing. CVPR 2018
ScanNet+FTSDF	0.383 111	0.297 113	0.491 111	0.432 110	0.358 107	0.612 108	0.274 104	0.116 112	0.411 102	0.265 109	0.904 101	0.229 109	0.079 108	0.250 106	0.185 111	0.320 111	0.510 108	0.385 109	0.548 110	0.597 112	0.394 105

PointNet++	0.339 112	0.584 98	0.478 112	0.458 108	0.256 113	0.360 114	0.250 105	0.247 111	0.278 112	0.261 110	0.677 113	0.183 112	0.117 103	0.212 112	0.145 113	0.364 107	0.346 114	0.232 114	0.548 110	0.523 113	0.252 112
Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas: pointnet++: deep hierarchical feature learning on point sets in a metric space.
SSC-UNet	0.308 113	0.353 112	0.290 114	0.278 114	0.166 114	0.553 111	0.169 112	0.286 109	0.147 114	0.148 114	0.908 99	0.182 113	0.064 109	0.023 114	0.018 115	0.354 109	0.363 112	0.345 112	0.546 112	0.685 101	0.278 110

ScanNet	0.306 114	0.203 114	0.366 113	0.501 103	0.311 111	0.524 112	0.211 111	0.002 115	0.342 108	0.189 113	0.786 111	0.145 114	0.102 104	0.245 107	0.152 112	0.318 112	0.348 113	0.300 113	0.460 113	0.437 114	0.182 114
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17
ERROR	0.054 115	0.000 115	0.041 115	0.172 115	0.030 115	0.062 115	0.001 115	0.035 114	0.004 115	0.051 115	0.143 115	0.019 115	0.003 114	0.041 113	0.050 114	0.003 115	0.054 115	0.018 115	0.005 115	0.264 115	0.082 115

This table lists the benchmark results for the 3D semantic instance scenario.

Method	avg ap 50%	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

Spherical Mask(CtoF)	0.812 1	1.000 1	0.973 3	0.852 12	0.718 4	0.917 5	0.574 4	0.677 25	0.748 8	0.729 8	0.715 5	0.795 2	0.809 1	1.000 1	0.831 2	0.854 8	0.787 7	1.000 1	0.638 4

SIM3D	0.805 2	1.000 1	0.971 4	0.863 11	0.686 13	0.924 4	0.552 7	0.739 17	0.674 15	0.740 6	0.666 11	0.807 1	0.789 7	1.000 1	0.803 5	0.866 5	0.775 13	1.000 1	0.639 3

OneFormer3D	0.801 3	1.000 1	0.973 2	0.909 5	0.698 10	0.928 2	0.582 3	0.668 29	0.685 13	0.780 2	0.687 9	0.698 13	0.702 12	1.000 1	0.794 7	0.900 2	0.784 9	0.986 46	0.635 5
Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: OneFormer3D: One Transformer for Unified Point Cloud Segmentation.
UniPerception	0.800 4	1.000 1	0.930 6	0.872 9	0.727 3	0.862 18	0.454 13	0.764 13	0.820 1	0.746 5	0.706 7	0.750 3	0.772 8	0.926 39	0.764 12	0.818 23	0.826 1	0.997 34	0.660 2

InsSSM	0.799 5	1.000 1	0.915 8	0.710 35	0.729 2	0.925 3	0.664 1	0.670 27	0.770 5	0.766 3	0.739 2	0.737 4	0.700 13	1.000 1	0.792 8	0.829 17	0.815 3	0.997 34	0.625 7

TST3D	0.795 6	1.000 1	0.929 7	0.918 4	0.709 7	0.884 13	0.596 2	0.704 22	0.769 6	0.734 7	0.644 15	0.699 12	0.751 10	1.000 1	0.794 6	0.876 4	0.757 17	0.997 34	0.550 26

ExtMask3D	0.789 7	1.000 1	0.988 1	0.756 28	0.706 8	0.912 6	0.429 14	0.647 34	0.806 4	0.755 4	0.673 10	0.689 14	0.772 9	1.000 1	0.789 9	0.852 9	0.811 4	1.000 1	0.617 10

Queryformer	0.787 8	1.000 1	0.933 5	0.601 44	0.754 1	0.886 11	0.558 6	0.661 31	0.767 7	0.665 13	0.716 4	0.639 19	0.808 3	1.000 1	0.844 1	0.897 3	0.804 5	1.000 1	0.624 8

MAFT	0.786 9	1.000 1	0.894 13	0.807 18	0.694 12	0.893 9	0.486 9	0.674 26	0.740 9	0.786 1	0.704 8	0.727 6	0.739 11	1.000 1	0.707 18	0.849 11	0.756 18	1.000 1	0.685 1

Mask3D	0.780 10	1.000 1	0.786 37	0.716 33	0.696 11	0.885 12	0.500 8	0.714 20	0.810 3	0.672 12	0.715 5	0.679 15	0.809 1	1.000 1	0.831 2	0.833 15	0.787 7	1.000 1	0.602 14
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
SPFormer	0.770 11	0.903 50	0.903 10	0.806 19	0.609 26	0.886 10	0.568 5	0.815 6	0.705 12	0.711 9	0.655 12	0.652 18	0.685 18	1.000 1	0.789 10	0.809 24	0.776 12	1.000 1	0.583 19
Sun Jiahao, Qing Chunmei, Tan Junpeng, Xu Xiangmin: Superpoint Transformer for 3D Scene Instance Segmentation. AAAI 2023 [Oral]
SoftGroup++	0.769 12	1.000 1	0.803 30	0.937 1	0.684 14	0.865 15	0.213 29	0.870 2	0.664 17	0.571 19	0.758 1	0.702 10	0.807 4	1.000 1	0.653 25	0.902 1	0.792 6	1.000 1	0.626 6

SoftGroup	0.761 13	1.000 1	0.808 26	0.845 13	0.716 5	0.862 17	0.243 26	0.824 4	0.655 19	0.620 14	0.734 3	0.699 11	0.791 6	0.981 33	0.716 16	0.844 12	0.769 14	1.000 1	0.594 17
Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo: SoftGroup for 3D Instance Segmentaiton on Point Clouds. CVPR 2022 [Oral]
ISBNet	0.757 14	1.000 1	0.904 9	0.731 31	0.678 15	0.895 7	0.458 11	0.644 36	0.670 16	0.710 10	0.620 20	0.732 5	0.650 20	1.000 1	0.756 13	0.778 27	0.779 10	1.000 1	0.614 11
Tuan Duc Ngo, Binh-Son Hua, Khoi Nguyen: ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution. CVPR 2023
TD3D	0.751 15	1.000 1	0.774 38	0.867 10	0.621 22	0.934 1	0.404 15	0.706 21	0.812 2	0.605 17	0.633 18	0.626 20	0.690 17	1.000 1	0.640 27	0.820 20	0.777 11	1.000 1	0.612 12
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
PBNet	0.747 16	1.000 1	0.818 22	0.837 15	0.713 6	0.844 20	0.457 12	0.647 34	0.711 11	0.614 15	0.617 22	0.657 17	0.650 20	1.000 1	0.692 19	0.822 19	0.765 16	1.000 1	0.595 16
W.Zhao, Y.Yan, C.Yang, J.Ye,X.Yang,K.Huang: Divide and Conquer: 3D Instance Segmentation With Point-Wise Binarization. ICCV 2023
GraphCut	0.732 17	1.000 1	0.788 35	0.724 32	0.642 20	0.859 19	0.248 25	0.787 11	0.618 22	0.596 18	0.653 14	0.722 8	0.583 41	1.000 1	0.766 11	0.861 6	0.825 2	1.000 1	0.504 32

IPCA-Inst	0.731 18	1.000 1	0.788 36	0.884 8	0.698 9	0.788 36	0.252 24	0.760 14	0.646 20	0.511 27	0.637 17	0.665 16	0.804 5	1.000 1	0.644 26	0.778 28	0.747 20	1.000 1	0.561 23

TopoSeg	0.725 19	1.000 1	0.806 29	0.933 2	0.668 17	0.758 40	0.272 23	0.734 19	0.630 21	0.549 23	0.654 13	0.606 21	0.697 16	0.966 36	0.612 31	0.839 13	0.754 19	1.000 1	0.573 20

DKNet	0.718 20	1.000 1	0.814 23	0.782 22	0.619 23	0.872 14	0.224 27	0.751 16	0.569 26	0.677 11	0.585 26	0.724 7	0.633 31	0.981 33	0.515 41	0.819 21	0.736 21	1.000 1	0.617 9
Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong: 3D Instances as 1D Kernels. ECCV 2022
SSEC	0.707 21	1.000 1	0.850 15	0.924 3	0.648 18	0.747 43	0.162 31	0.862 3	0.572 25	0.520 25	0.624 19	0.549 24	0.649 29	1.000 1	0.560 36	0.706 43	0.768 15	1.000 1	0.591 18

HAIS	0.699 22	1.000 1	0.849 16	0.820 16	0.675 16	0.808 30	0.279 21	0.757 15	0.465 32	0.517 26	0.596 24	0.559 23	0.600 35	1.000 1	0.654 24	0.767 30	0.676 25	0.994 42	0.560 24
Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang: Hierarchical Aggregation for 3D Instance Segmentation. ICCV 2021
SSTNet	0.698 23	1.000 1	0.697 54	0.888 7	0.556 33	0.803 31	0.387 16	0.626 38	0.417 37	0.556 22	0.585 27	0.702 9	0.600 35	1.000 1	0.824 4	0.720 42	0.692 23	1.000 1	0.509 31
Zhihao Liang, Zhihao Li, Songcen Xu, Mingkui Tan, Kui Jia: Instance Segmentation in 3D Scenes using Semantic Superpoint Tree Networks. ICCV2021
DualGroup	0.694 24	1.000 1	0.799 32	0.811 17	0.622 21	0.817 25	0.376 17	0.805 9	0.590 24	0.487 31	0.568 30	0.525 28	0.650 20	0.835 49	0.600 32	0.829 16	0.655 28	1.000 1	0.526 28

SphereSeg	0.680 25	1.000 1	0.856 14	0.744 29	0.618 24	0.893 8	0.151 32	0.651 33	0.713 10	0.537 24	0.579 29	0.430 38	0.651 19	1.000 1	0.389 52	0.744 37	0.697 22	0.991 44	0.601 15

DANCENET	0.680 25	1.000 1	0.807 27	0.733 30	0.600 27	0.768 39	0.375 18	0.543 46	0.538 27	0.610 16	0.599 23	0.498 29	0.632 33	0.981 33	0.739 15	0.856 7	0.633 34	0.882 57	0.454 41

Box2Mask	0.677 27	1.000 1	0.847 17	0.771 24	0.509 42	0.816 26	0.277 22	0.558 45	0.482 29	0.562 21	0.640 16	0.448 34	0.700 13	1.000 1	0.666 20	0.852 10	0.578 41	0.997 34	0.488 36
Julian Chibane, Francis Engelmann, Tuan Anh Tran, Gerard Pons-Moll: Box2Mask: Weakly Supervised 3D Semantic Instance Segmentation Using Bounding Boxes. ECCV 2022
OccuSeg+instance	0.672 28	1.000 1	0.758 46	0.682 37	0.576 31	0.842 21	0.477 10	0.504 52	0.524 28	0.567 20	0.585 28	0.451 33	0.557 43	1.000 1	0.751 14	0.797 25	0.563 44	1.000 1	0.467 40
Lei Han, Tian Zheng, Lan Xu, Lu Fang: OccuSeg: Occupancy-aware 3D Instance Segmentation. CVPR2020
Mask-Group	0.664 29	1.000 1	0.822 21	0.764 27	0.616 25	0.815 27	0.139 36	0.694 24	0.597 23	0.459 35	0.566 31	0.599 22	0.600 35	0.516 59	0.715 17	0.819 22	0.635 32	1.000 1	0.603 13
Min Zhong, Xinghao Chen, Xiaokang Chen, Gang Zeng, Yunhe Wang: MaskGroup: Hierarchical Point Grouping and Masking for 3D Instance Segmentation. ICME 2022
INS-Conv-instance	0.657 30	1.000 1	0.760 44	0.667 39	0.581 29	0.863 16	0.323 19	0.655 32	0.477 30	0.473 33	0.549 33	0.432 37	0.650 20	1.000 1	0.655 23	0.738 38	0.585 40	0.944 49	0.472 39

CSC-Pretrained	0.648 31	1.000 1	0.810 24	0.768 25	0.523 40	0.813 28	0.143 35	0.819 5	0.389 40	0.422 44	0.511 37	0.443 35	0.650 20	1.000 1	0.624 29	0.732 39	0.634 33	1.000 1	0.375 48

PE	0.645 32	1.000 1	0.773 40	0.798 21	0.538 35	0.786 37	0.088 44	0.799 10	0.350 44	0.435 42	0.547 34	0.545 25	0.646 30	0.933 38	0.562 35	0.761 33	0.556 49	0.997 34	0.501 34
Biao Zhang, Peter Wonka: Point Cloud Instance Segmentation using Probabilistic Embeddings. CVPR 2021
RPGN	0.643 33	1.000 1	0.758 45	0.582 50	0.539 34	0.826 24	0.046 49	0.765 12	0.372 42	0.436 41	0.588 25	0.539 27	0.650 20	1.000 1	0.577 33	0.750 35	0.653 30	0.997 34	0.495 35
Shichao Dong, Guosheng Lin, Tzu-Yi Hung: Learning Regional Purity for Instance Segmentation on 3D Point Clouds. ECCV 2022
Dyco3D	0.641 34	1.000 1	0.841 18	0.893 6	0.531 37	0.802 32	0.115 41	0.588 43	0.448 34	0.438 39	0.537 36	0.430 39	0.550 44	0.857 41	0.534 39	0.764 32	0.657 27	0.987 45	0.568 21
Tong He; Chunhua Shen; Anton van den Hengel: DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution. CVPR2021
GICN	0.638 35	1.000 1	0.895 12	0.800 20	0.480 46	0.676 48	0.144 34	0.737 18	0.354 43	0.447 36	0.400 50	0.365 45	0.700 13	1.000 1	0.569 34	0.836 14	0.599 36	1.000 1	0.473 38

PointGroup	0.636 36	1.000 1	0.765 41	0.624 41	0.505 44	0.797 33	0.116 40	0.696 23	0.384 41	0.441 37	0.559 32	0.476 31	0.596 38	1.000 1	0.666 20	0.756 34	0.556 48	0.997 34	0.513 30
Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia: PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation. CVPR 2020 [oral]
DD-UNet+Group	0.635 37	0.667 52	0.797 34	0.714 34	0.562 32	0.774 38	0.146 33	0.810 8	0.429 36	0.476 32	0.546 35	0.399 41	0.633 31	1.000 1	0.632 28	0.722 41	0.609 35	1.000 1	0.514 29
H. Liu, R. Liu, K. Yang, J. Zhang, K. Peng, R. Stiefelhagen: HIDA: Towards Holistic Indoor Understanding for the Visually Impaired via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor. ICCVW 2021
Mask3D_evaluation	0.631 38	1.000 1	0.829 20	0.606 43	0.646 19	0.836 22	0.068 45	0.511 50	0.462 33	0.507 28	0.619 21	0.389 43	0.610 34	1.000 1	0.432 47	0.828 18	0.673 26	0.788 61	0.552 25

DENet	0.629 39	1.000 1	0.797 33	0.608 42	0.589 28	0.627 52	0.219 28	0.882 1	0.310 46	0.402 49	0.383 52	0.396 42	0.650 20	1.000 1	0.663 22	0.543 60	0.691 24	1.000 1	0.568 22

3D-MPA	0.611 40	1.000 1	0.833 19	0.765 26	0.526 39	0.756 41	0.136 38	0.588 43	0.470 31	0.438 40	0.432 46	0.358 47	0.650 20	0.857 41	0.429 48	0.765 31	0.557 47	1.000 1	0.430 43
Francis Engelmann, Martin Bokeloh, Alireza Fathi, Bastian Leibe, Matthias Nießner: 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation. CVPR 2020
OSIS	0.605 41	1.000 1	0.801 31	0.599 45	0.535 36	0.728 45	0.286 20	0.436 56	0.679 14	0.491 29	0.433 44	0.256 49	0.404 56	0.857 41	0.620 30	0.724 40	0.510 54	1.000 1	0.539 27

AOIA	0.601 42	1.000 1	0.761 43	0.687 36	0.485 45	0.828 23	0.008 56	0.663 30	0.405 39	0.405 48	0.425 47	0.490 30	0.596 38	0.714 52	0.553 38	0.779 26	0.597 37	0.992 43	0.424 45

PCJC	0.578 43	1.000 1	0.810 25	0.583 49	0.449 49	0.813 29	0.042 50	0.603 41	0.341 45	0.490 30	0.465 41	0.410 40	0.650 20	0.835 49	0.264 58	0.694 47	0.561 45	0.889 54	0.504 33

SSEN	0.575 44	1.000 1	0.761 42	0.473 52	0.477 47	0.795 34	0.066 46	0.529 48	0.658 18	0.460 34	0.461 42	0.380 44	0.331 58	0.859 40	0.401 51	0.692 49	0.653 29	1.000 1	0.348 50
Dongsu Zhang, Junha Chun, Sang Kyun Cha, Young Min Kim: Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with Deep Metric Learning. Arxiv
RWSeg	0.567 45	0.528 62	0.708 53	0.626 40	0.580 30	0.745 44	0.063 47	0.627 37	0.240 50	0.400 50	0.497 38	0.464 32	0.515 45	1.000 1	0.475 43	0.745 36	0.571 42	1.000 1	0.429 44

NeuralBF	0.555 46	0.667 52	0.896 11	0.843 14	0.517 41	0.751 42	0.029 51	0.519 49	0.414 38	0.439 38	0.465 40	0.000 68	0.484 47	0.857 41	0.287 56	0.693 48	0.651 31	1.000 1	0.485 37
Weiwei Sun, Daniel Rebain, Renjie Liao, Vladimir Tankovich, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi: NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation on Point Clouds. WACV 2023
MTML	0.549 47	1.000 1	0.807 28	0.588 48	0.327 54	0.647 50	0.004 58	0.815 7	0.180 53	0.418 45	0.364 54	0.182 52	0.445 50	1.000 1	0.442 46	0.688 50	0.571 43	1.000 1	0.396 46
Jean Lahoud, Bernard Ghanem, Marc Pollefeys, Martin R. Oswald: 3D Instance Segmentation via Multi-task Metric Learning. ICCV 2019 [oral]
ClickSeg_Instance	0.539 48	1.000 1	0.621 57	0.300 55	0.530 38	0.698 46	0.127 39	0.533 47	0.222 51	0.430 43	0.400 49	0.365 45	0.574 42	0.938 37	0.472 44	0.659 52	0.543 50	0.944 49	0.347 51

One_Thing_One_Click	0.529 49	0.667 52	0.718 49	0.777 23	0.399 50	0.683 47	0.000 61	0.669 28	0.138 56	0.391 51	0.374 53	0.539 26	0.360 57	0.641 56	0.556 37	0.774 29	0.593 38	0.997 34	0.251 56
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
Sparse R-CNN	0.515 50	1.000 1	0.538 62	0.282 56	0.468 48	0.790 35	0.173 30	0.345 58	0.429 35	0.413 47	0.484 39	0.176 53	0.595 40	0.591 57	0.522 40	0.668 51	0.476 55	0.986 47	0.327 52

Occipital-SCS	0.512 51	1.000 1	0.716 50	0.509 51	0.506 43	0.611 53	0.092 43	0.602 42	0.177 54	0.346 54	0.383 51	0.165 54	0.442 51	0.850 48	0.386 53	0.618 56	0.543 51	0.889 54	0.389 47

3D-BoNet	0.488 52	1.000 1	0.672 56	0.590 47	0.301 56	0.484 63	0.098 42	0.620 39	0.306 47	0.341 55	0.259 58	0.125 56	0.434 53	0.796 51	0.402 50	0.499 62	0.513 53	0.909 53	0.439 42
Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen Wang, Andrew Markham, Niki Trigoni: Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds. NeurIPS 2019 Spotlight
PanopticFusion-inst	0.478 53	0.667 52	0.712 52	0.595 46	0.259 59	0.550 59	0.000 61	0.613 40	0.175 55	0.250 60	0.434 43	0.437 36	0.411 55	0.857 41	0.485 42	0.591 59	0.267 65	0.944 49	0.359 49
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
SPG_WSIS	0.470 54	0.667 52	0.685 55	0.677 38	0.372 52	0.562 57	0.000 61	0.482 53	0.244 49	0.316 57	0.298 55	0.052 63	0.442 52	0.857 41	0.267 57	0.702 44	0.559 46	1.000 1	0.287 54

SALoss-ResNet	0.459 55	1.000 1	0.737 48	0.159 66	0.259 58	0.587 55	0.138 37	0.475 54	0.217 52	0.416 46	0.408 48	0.128 55	0.315 59	0.714 52	0.411 49	0.536 61	0.590 39	0.873 58	0.304 53
Zhidong Liang, Ming Yang, Hao Li, Chunxiang Wang: 3D Instance Embedding Learning With a Structure-Aware Loss Function for Point Cloud Segmentation. IEEE Robotics and Automation Letters (IROS2020)
MASC	0.447 56	0.528 62	0.555 60	0.381 53	0.382 51	0.633 51	0.002 59	0.509 51	0.260 48	0.361 53	0.432 45	0.327 48	0.451 49	0.571 58	0.367 54	0.639 54	0.386 56	0.980 48	0.276 55
Chen Liu, Yasutaka Furukawa: MASC: Multi-scale Affinity with Sparse Convolution for 3D Instance Segmentation.
SegGroup_ins	0.445 57	0.667 52	0.773 39	0.185 63	0.317 55	0.656 49	0.000 61	0.407 57	0.134 57	0.381 52	0.267 57	0.217 51	0.476 48	0.714 52	0.452 45	0.629 55	0.514 52	1.000 1	0.222 59
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
3D-SIS	0.382 58	1.000 1	0.432 65	0.245 58	0.190 60	0.577 56	0.013 55	0.263 60	0.033 63	0.320 56	0.240 59	0.075 59	0.422 54	0.857 41	0.117 63	0.699 45	0.271 64	0.883 56	0.235 58
Ji Hou, Angela Dai, Matthias Niessner: 3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. CVPR 2019
Hier3D	0.323 59	0.667 52	0.542 61	0.264 57	0.157 63	0.550 58	0.000 61	0.205 63	0.009 65	0.270 59	0.218 60	0.075 59	0.500 46	0.688 55	0.007 69	0.698 46	0.301 61	0.459 66	0.200 60
Tan: HCFS3D: Hierarchical Coupled Feature Selection Network for 3D Semantic and Instance Segmentation.
UNet-backbone	0.319 60	0.667 52	0.715 51	0.233 59	0.189 61	0.479 64	0.008 56	0.218 61	0.067 62	0.201 62	0.173 61	0.107 57	0.123 64	0.438 60	0.150 60	0.615 57	0.355 57	0.916 52	0.093 68

R-PointNet	0.306 61	0.500 64	0.405 66	0.311 54	0.348 53	0.589 54	0.054 48	0.068 66	0.126 58	0.283 58	0.290 56	0.028 64	0.219 62	0.214 63	0.331 55	0.396 66	0.275 62	0.821 60	0.245 57

Region-18class	0.284 62	0.250 68	0.751 47	0.228 61	0.270 57	0.521 60	0.000 61	0.468 55	0.008 67	0.205 61	0.127 62	0.000 68	0.068 66	0.070 67	0.262 59	0.652 53	0.323 59	0.740 62	0.173 61

SemRegionNet-20cls	0.250 63	0.333 65	0.613 58	0.229 60	0.163 62	0.493 61	0.000 61	0.304 59	0.107 59	0.147 65	0.100 64	0.052 62	0.231 60	0.119 65	0.039 65	0.445 64	0.325 58	0.654 63	0.141 64

tmp	0.248 64	0.667 52	0.437 64	0.188 62	0.153 64	0.491 62	0.000 61	0.208 62	0.094 61	0.153 64	0.099 65	0.057 61	0.217 63	0.119 65	0.039 65	0.466 63	0.302 60	0.640 64	0.140 65

3D-BEVIS	0.248 64	0.667 52	0.566 59	0.076 67	0.035 69	0.394 67	0.027 53	0.035 68	0.098 60	0.099 67	0.030 68	0.025 65	0.098 65	0.375 62	0.126 62	0.604 58	0.181 67	0.854 59	0.171 62
Cathrin Elich, Francis Engelmann, Jonas Schult, Theodora Kontogianni, Bastian Leibe: 3D-BEVIS: Birds-Eye-View Instance Segmentation.
Sem_Recon_ins	0.227 66	0.764 51	0.486 63	0.069 68	0.098 66	0.426 66	0.017 54	0.067 67	0.015 64	0.172 63	0.100 63	0.096 58	0.054 68	0.183 64	0.135 61	0.366 67	0.260 66	0.614 65	0.168 63

ASIS	0.199 67	0.333 65	0.253 68	0.167 65	0.140 65	0.438 65	0.000 61	0.177 64	0.008 66	0.121 66	0.069 66	0.004 67	0.231 61	0.429 61	0.036 67	0.445 65	0.273 63	0.333 68	0.119 67

Sgpn_scannet	0.143 68	0.208 69	0.390 67	0.169 64	0.065 67	0.275 68	0.029 52	0.069 65	0.000 68	0.087 68	0.043 67	0.014 66	0.027 69	0.000 68	0.112 64	0.351 68	0.168 68	0.438 67	0.138 66

MaskRCNN 2d->3d Proj	0.058 69	0.333 65	0.002 69	0.000 69	0.053 68	0.002 69	0.002 60	0.021 69	0.000 68	0.045 69	0.024 69	0.238 50	0.065 67	0.000 68	0.014 68	0.107 69	0.020 69	0.110 69	0.006 69

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

Virtual MVFusion (R)	0.745 1	0.861 1	0.839 1	0.881 1	0.672 2	0.512 1	0.422 17	0.898 1	0.723 1	0.714 1	0.954 2	0.454 1	0.509 1	0.773 1	0.895 1	0.756 1	0.820 1	0.653 1	0.935 1	0.891 1	0.728 1
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
BPNet_2D	0.670 2	0.822 3	0.795 3	0.836 2	0.659 3	0.481 2	0.451 13	0.769 4	0.656 3	0.567 4	0.931 3	0.395 6	0.390 5	0.700 4	0.534 4	0.689 10	0.770 2	0.574 3	0.865 9	0.831 3	0.675 5
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia and Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MVF-GNN（2D）	0.636 3	0.606 14	0.794 4	0.434 16	0.688 1	0.337 8	0.464 12	0.798 3	0.632 5	0.589 3	0.908 8	0.420 2	0.329 12	0.743 2	0.594 2	0.738 2	0.676 5	0.527 4	0.906 2	0.818 6	0.715 3

CU-Hybrid-2D Net	0.636 3	0.825 2	0.820 2	0.179 23	0.648 4	0.463 3	0.549 2	0.742 7	0.676 2	0.628 2	0.961 1	0.420 2	0.379 6	0.684 8	0.381 18	0.732 3	0.723 3	0.599 2	0.827 16	0.851 2	0.634 7

CMX	0.613 5	0.681 8	0.725 12	0.502 12	0.634 6	0.297 18	0.478 10	0.830 2	0.651 4	0.537 7	0.924 4	0.375 7	0.315 14	0.686 7	0.451 14	0.714 5	0.543 21	0.504 6	0.894 7	0.823 5	0.688 4

DMMF_3d	0.605 6	0.651 9	0.744 10	0.782 3	0.637 5	0.387 4	0.536 3	0.732 8	0.590 7	0.540 6	0.856 21	0.359 11	0.306 15	0.596 14	0.539 3	0.627 20	0.706 4	0.497 8	0.785 21	0.757 19	0.476 22

EMSANet	0.600 7	0.716 4	0.746 9	0.395 18	0.614 9	0.382 5	0.523 4	0.713 11	0.571 11	0.503 10	0.922 6	0.404 5	0.397 4	0.655 9	0.400 16	0.626 21	0.663 6	0.469 13	0.900 4	0.827 4	0.577 14
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
MCA-Net	0.595 8	0.533 20	0.756 8	0.746 4	0.590 10	0.334 10	0.506 7	0.670 15	0.587 8	0.500 12	0.905 10	0.366 10	0.352 9	0.601 13	0.506 8	0.669 16	0.648 9	0.501 7	0.839 15	0.769 15	0.516 21

RFBNet	0.592 9	0.616 11	0.758 7	0.659 5	0.581 11	0.330 11	0.469 11	0.655 18	0.543 14	0.524 8	0.924 4	0.355 13	0.336 11	0.572 17	0.479 10	0.671 14	0.648 9	0.480 10	0.814 19	0.814 7	0.614 10

FAN_NV_RVC	0.586 10	0.510 21	0.764 6	0.079 26	0.620 8	0.330 11	0.494 8	0.753 5	0.573 9	0.556 5	0.884 16	0.405 4	0.303 16	0.718 3	0.452 13	0.672 13	0.658 7	0.509 5	0.898 5	0.813 8	0.727 2

DCRedNet	0.583 11	0.682 7	0.723 13	0.542 11	0.510 20	0.310 15	0.451 13	0.668 16	0.549 13	0.520 9	0.920 7	0.375 7	0.446 2	0.528 20	0.417 15	0.670 15	0.577 18	0.478 11	0.862 10	0.806 9	0.628 9

MIX6D_RVC	0.582 12	0.695 5	0.687 17	0.225 21	0.632 7	0.328 13	0.550 1	0.748 6	0.623 6	0.494 15	0.890 14	0.350 15	0.254 23	0.688 6	0.454 12	0.716 4	0.597 17	0.489 9	0.881 8	0.768 16	0.575 15

SSMA	0.577 13	0.695 5	0.716 15	0.439 14	0.563 14	0.314 14	0.444 15	0.719 9	0.551 12	0.503 10	0.887 15	0.346 16	0.348 10	0.603 12	0.353 20	0.709 6	0.600 15	0.457 14	0.901 3	0.786 11	0.599 13
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
DMMF	0.567 14	0.623 10	0.767 5	0.238 20	0.571 13	0.347 6	0.413 19	0.719 9	0.472 20	0.418 22	0.895 13	0.357 12	0.260 22	0.696 5	0.523 7	0.666 17	0.642 11	0.437 18	0.895 6	0.793 10	0.603 12

UNIV_CNP_RVC_UE	0.566 15	0.569 19	0.686 19	0.435 15	0.524 17	0.294 19	0.421 18	0.712 12	0.543 14	0.463 17	0.872 17	0.320 17	0.363 8	0.611 11	0.477 11	0.686 11	0.627 12	0.443 17	0.862 10	0.775 14	0.639 6

EMSAFormer	0.564 16	0.581 16	0.736 11	0.564 10	0.546 16	0.219 23	0.517 5	0.675 14	0.486 19	0.427 21	0.904 11	0.352 14	0.320 13	0.589 15	0.528 5	0.708 7	0.464 24	0.413 22	0.847 14	0.786 11	0.611 11

SN_RN152pyrx8_RVC	0.546 17	0.572 17	0.663 21	0.638 7	0.518 18	0.298 17	0.366 24	0.633 21	0.510 17	0.446 19	0.864 19	0.296 20	0.267 19	0.542 19	0.346 21	0.704 8	0.575 19	0.431 19	0.853 13	0.766 17	0.630 8

UDSSEG_RVC	0.545 18	0.610 13	0.661 22	0.588 8	0.556 15	0.268 21	0.482 9	0.642 20	0.572 10	0.475 16	0.836 23	0.312 18	0.367 7	0.630 10	0.189 23	0.639 19	0.495 23	0.452 15	0.826 17	0.756 20	0.541 17

segfomer with 6d	0.542 19	0.594 15	0.687 17	0.146 24	0.579 12	0.308 16	0.515 6	0.703 13	0.472 20	0.498 13	0.868 18	0.369 9	0.282 17	0.589 15	0.390 17	0.701 9	0.556 20	0.416 21	0.860 12	0.759 18	0.539 19

FuseNet	0.535 20	0.570 18	0.681 20	0.182 22	0.512 19	0.290 20	0.431 16	0.659 17	0.504 18	0.495 14	0.903 12	0.308 19	0.428 3	0.523 21	0.365 19	0.676 12	0.621 14	0.470 12	0.762 22	0.779 13	0.541 17
Caner Hazirbas, Lingni Ma, Csaba Domokos, Daniel Cremers: FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. ACCV 2016
AdapNet++	0.503 21	0.613 12	0.722 14	0.418 17	0.358 26	0.337 8	0.370 23	0.479 24	0.443 22	0.368 24	0.907 9	0.207 23	0.213 25	0.464 24	0.525 6	0.618 22	0.657 8	0.450 16	0.788 20	0.721 23	0.408 25
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
3DMV (2d proj)	0.498 22	0.481 24	0.612 23	0.579 9	0.456 22	0.343 7	0.384 21	0.623 22	0.525 16	0.381 23	0.845 22	0.254 22	0.264 21	0.557 18	0.182 24	0.581 24	0.598 16	0.429 20	0.760 23	0.661 25	0.446 24
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
MSeg1080_RVC	0.485 23	0.505 22	0.709 16	0.092 25	0.427 23	0.241 22	0.411 20	0.654 19	0.385 26	0.457 18	0.861 20	0.053 26	0.279 18	0.503 22	0.481 9	0.645 18	0.626 13	0.365 24	0.748 24	0.725 22	0.529 20
John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun: MSeg: A Composite Dataset for Multi-domain Semantic Segmentation. CVPR 2020
ILC-PSPNet	0.475 24	0.490 23	0.581 24	0.289 19	0.507 21	0.067 26	0.379 22	0.610 23	0.417 24	0.435 20	0.822 25	0.278 21	0.267 19	0.503 22	0.228 22	0.616 23	0.533 22	0.375 23	0.820 18	0.729 21	0.560 16

Enet (reimpl)	0.376 25	0.264 26	0.452 26	0.452 13	0.365 24	0.181 24	0.143 26	0.456 25	0.409 25	0.346 25	0.769 26	0.164 24	0.218 24	0.359 25	0.123 26	0.403 26	0.381 26	0.313 26	0.571 25	0.685 24	0.472 23
Re-implementation of Adam Paszke, Abhishek Chaurasia, Sangpil Kim, Eugenio Culurciello: ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation.
ScanNet (2d proj)	0.330 26	0.293 25	0.521 25	0.657 6	0.361 25	0.161 25	0.250 25	0.004 26	0.440 23	0.183 26	0.836 23	0.125 25	0.060 26	0.319 26	0.132 25	0.417 25	0.412 25	0.344 25	0.541 26	0.427 26	0.109 26
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

EMSANet (Instance)	0.241 1	0.401 1	0.439 1	0.085 1	0.242 1	0.220 1	0.081 1	0.289 2	0.117 2	0.121 1	0.182 1	0.126 1	0.346 1	0.181 2	0.181 2	0.358 1	0.156 1	0.675 2	0.131 1
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
UniDet_RVC	0.205 2	0.381 2	0.323 3	0.037 3	0.226 3	0.177 3	0.063 2	0.277 3	0.120 1	0.067 3	0.131 3	0.074 3	0.317 2	0.080 3	0.235 1	0.289 3	0.141 3	0.678 1	0.080 3

FKNet	0.204 3	0.334 3	0.358 2	0.038 2	0.234 2	0.184 2	0.025 3	0.318 1	0.042 4	0.088 2	0.141 2	0.053 4	0.300 3	0.207 1	0.171 3	0.292 2	0.149 2	0.636 3	0.109 2

MaskRCNN_ScanNet	0.119 4	0.129 4	0.212 4	0.002 4	0.112 4	0.148 4	0.014 4	0.205 4	0.044 3	0.066 4	0.078 4	0.095 2	0.142 4	0.030 4	0.128 4	0.139 4	0.080 4	0.459 4	0.057 4
Re-implementation of Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick: Mask R-CNN. ICCV'17

Presenting the ScanNet200 Benchmark

ScanNet200 Benchmark

ScanNet200 3D Semantic Label Benchmark

ScanNet200 3D Semantic Instance Benchmark

ScanNet Benchmark

3D Semantic Label Benchmark

3D Semantic Instance Benchmark

2D Semantic Label Benchmark

2D Semantic Instance Benchmark

Scene Type Classification Benchmark

Method	avg iou	apartment	bathroom	bedroom / hotel	bookstore / library	conference room	copy/mail room	hallway	kitchen	laundry room	living room / lounge	misc	office	storage / basement / garage

LAST-PCL-type	0.738 1	0.250 3	1.000 1	0.895 1	1.000 1	1.000 1	1.000 1	0.500 1	1.000 1	0.500 2	0.842 1	0.000 2	0.941 1	0.667 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang: Language-Assisted 3D Scene Understanding. arxiv23.12
multi-task	0.646 2	0.500 1	1.000 1	0.789 2	0.333 3	0.667 3	1.000 1	0.500 1	1.000 1	1.000 1	0.778 2	0.000 2	0.833 2	0.000 3
Shengyu Huang, Mikhail Usvyatsov, Konrad Schindler: Indoor Scene Recognition in 3D. IROS 2020
3DASPP-SCE	0.556 3	0.500 1	0.938 3	0.778 3	0.667 2	1.000 1	0.250 3	0.500 1	0.750 3	0.333 3	0.500 4	0.000 2	0.812 3	0.200 2

SE-ResNeXt-SSMA	0.355 4	0.000 5	0.684 4	0.696 4	0.200 5	0.500 4	0.200 4	0.500 1	0.429 4	0.200 4	0.545 3	0.111 1	0.556 4	0.000 3
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. arXiv
resnet50_scannet	0.231 5	0.200 4	0.481 5	0.346 5	0.250 4	0.250 5	0.000 5	0.500 1	0.333 5	0.000 5	0.357 5	0.000 2	0.286 5	0.000 3