Benchmark Results - ScanNet Benchmark

This table lists the benchmark results for the ScanNet200 3D semantic label scenario.

Method	avg iou	head iou	common iou	tail iou	wall	chair	floor	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

DITR	0.409 2	0.616 1	0.351 1	0.215 3	0.831 3	0.791 1	0.947 6	0.619 1	0.730 2	0.762 3	0.494 2	0.571 1	0.597 2	0.000 11	0.853 1	0.625 3	0.796 2	0.301 3	0.723 3	0.959 4	0.617 2	0.862 7	0.917 3	0.573 1	0.562 9	0.591 1	0.784 7	0.504 5	0.757 1	0.737 2	0.429 4	0.853 1	0.662 3	0.135 3	0.459 3	0.558 10	0.000 1	0.913 1	0.878 6	0.687 14	0.008 14	0.000 7	0.615 4	0.238 1	0.651 1	0.370 3	0.742 2	0.925 2	0.360 1	0.167 5	0.938 1	0.752 2	0.118 3	0.827 2	0.670 4	0.723 2	0.614 3	0.628 13	0.372 1	0.000 3	0.143 11	0.175 15	0.873 3	0.652 1	0.991 1	0.340 1	0.148 6	0.814 1	0.656 1	0.524 6	0.491 2	0.000 1	0.743 1	0.752 2	0.000 4	0.000 8	0.000 1	0.399 1	0.865 3	0.953 1	0.833 1	0.694 2	0.444 6	0.000 15	0.688 4	0.609 2	0.000 3	0.053 2	0.000 1	0.022 9	0.000 4	0.053 12	0.940 3	0.000 1	0.186 1	0.093 5	0.854 2	0.877 1	0.534 2	0.404 1	0.270 3	0.191 9	0.198 4	0.461 8	0.375 1	0.152 3	0.921 1	0.132 8	0.235 13	0.000 1	0.617 1	0.330 1	0.896 1	0.399 6	0.431 5	0.597 9	0.759 1	0.554 4	0.400 2	0.000 1	0.559 9	0.699 1	0.852 2	0.000 1	0.000 8	0.091 9	0.385 1	0.000 6	0.000 9	0.478 4	0.077 8	0.000 6	0.140 4	0.000 1	0.000 2	0.670 12	0.000 1	0.452 5	0.000 1	0.263 3	0.361 12	0.000 1	0.643 4	0.000 1	0.000 1	0.357 5	0.005 10	0.928 2	0.362 1	0.496 1	0.000 1	0.000 6	0.000 1	0.072 15	0.585 2	0.587 3	0.476 4	0.037 14	0.191 5	0.410 13	0.629 5	0.118 1	0.000 1	0.479 10	0.000 2	0.000 2	0.107 7	0.839 3	0.000 2	0.000 1	0.000 1	0.139 11	0.036 4	0.000 3	0.247 8	0.000 1

ALS-MinkowskiNet	0.414 1	0.610 2	0.322 3	0.271 1	0.852 1	0.710 2	0.973 1	0.572 3	0.719 3	0.795 1	0.477 5	0.506 2	0.601 1	0.000 11	0.804 5	0.646 2	0.804 1	0.344 2	0.777 1	0.984 1	0.671 1	0.879 2	0.936 1	0.342 4	0.632 6	0.449 3	0.817 3	0.475 7	0.723 2	0.798 1	0.376 8	0.832 3	0.693 1	0.031 10	0.564 1	0.510 12	0.000 1	0.893 2	0.905 1	0.672 15	0.314 2	0.000 7	0.718 1	0.153 2	0.542 2	0.397 2	0.726 3	0.752 8	0.252 8	0.226 1	0.916 2	0.800 1	0.047 14	0.807 4	0.769 1	0.709 3	0.630 2	0.769 1	0.217 9	0.000 3	0.285 2	0.598 3	0.846 9	0.535 2	0.956 3	0.000 4	0.137 9	0.784 2	0.464 7	0.463 12	0.230 10	0.000 1	0.598 3	0.662 8	0.000 4	0.087 2	0.000 1	0.135 2	0.900 1	0.780 12	0.703 2	0.741 1	0.571 2	0.149 9	0.697 3	0.646 1	0.000 3	0.076 1	0.000 1	0.025 7	0.000 4	0.106 4	0.981 1	0.000 1	0.043 6	0.113 3	0.888 1	0.248 14	0.404 4	0.252 5	0.314 1	0.220 5	0.245 1	0.466 7	0.366 2	0.159 2	0.000 5	0.149 6	0.690 2	0.000 1	0.531 3	0.253 2	0.285 6	0.460 1	0.440 4	0.813 1	0.230 2	0.283 6	0.159 11	0.000 1	0.728 1	0.666 5	0.958 1	0.000 1	0.021 4	0.252 4	0.118 4	0.000 6	0.445 3	0.223 11	0.285 1	0.194 3	0.390 2	0.000 1	0.475 1	0.842 8	0.000 1	0.455 4	0.000 1	0.250 5	0.458 7	0.000 1	0.865 1	0.000 1	0.000 1	0.635 1	0.359 2	0.972 1	0.087 3	0.447 2	0.000 1	0.000 6	0.000 1	0.129 2	0.532 6	0.446 7	0.503 3	0.071 11	0.135 13	0.699 3	0.717 2	0.097 2	0.000 1	0.665 1	0.000 2	0.000 2	1.000 1	0.752 5	0.000 2	0.000 1	0.000 1	0.142 9	0.200 1	0.259 1	1.000 1	0.000 1

PTv3 ScanNet200	0.393 3	0.592 3	0.330 2	0.216 2	0.851 2	0.687 7	0.971 2	0.586 2	0.755 1	0.752 8	0.505 1	0.404 6	0.575 4	0.000 11	0.848 2	0.616 4	0.761 3	0.349 1	0.738 2	0.978 2	0.546 6	0.860 8	0.926 2	0.346 3	0.654 4	0.384 6	0.828 1	0.523 3	0.699 3	0.583 6	0.387 7	0.822 4	0.688 2	0.118 5	0.474 2	0.603 5	0.000 1	0.832 5	0.903 2	0.753 9	0.140 8	0.000 7	0.650 3	0.109 4	0.520 3	0.457 1	0.497 9	0.871 4	0.281 4	0.192 4	0.887 4	0.748 3	0.168 1	0.727 6	0.733 2	0.740 1	0.644 1	0.714 5	0.190 10	0.000 3	0.256 4	0.449 7	0.914 1	0.514 3	0.759 13	0.337 2	0.172 4	0.692 6	0.617 2	0.636 1	0.325 6	0.000 1	0.641 2	0.782 1	0.000 4	0.065 4	0.000 1	0.000 6	0.842 4	0.903 2	0.661 4	0.662 4	0.612 1	0.405 2	0.731 1	0.566 3	0.000 3	0.000 7	0.000 1	0.017 13	0.301 1	0.088 6	0.941 2	0.000 1	0.077 3	0.000 10	0.717 6	0.790 2	0.310 11	0.026 15	0.264 4	0.349 1	0.220 3	0.397 11	0.366 2	0.115 10	0.000 5	0.337 2	0.463 6	0.000 1	0.531 3	0.218 3	0.593 2	0.455 2	0.469 1	0.708 3	0.210 3	0.592 3	0.108 14	0.000 1	0.728 1	0.682 3	0.671 7	0.000 1	0.000 8	0.407 1	0.136 3	0.022 3	0.575 1	0.436 5	0.259 3	0.428 1	0.048 5	0.000 1	0.000 2	0.879 5	0.000 1	0.480 3	0.000 1	0.133 8	0.597 1	0.000 1	0.690 2	0.000 1	0.000 1	0.009 13	0.000 13	0.921 4	0.000 8	0.151 4	0.000 1	0.000 6	0.000 1	0.109 7	0.494 11	0.622 2	0.394 8	0.073 10	0.141 8	0.798 1	0.528 6	0.026 4	0.000 1	0.551 4	0.000 2	0.000 2	0.134 6	0.717 7	0.000 2	0.000 1	0.000 1	0.188 3	0.000 7	0.000 3	0.791 2	0.000 1
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
PPT-SpUNet-F.T.	0.332 10	0.556 5	0.270 7	0.123 12	0.816 6	0.682 8	0.946 7	0.549 7	0.657 9	0.756 6	0.459 6	0.376 8	0.550 8	0.001 10	0.807 4	0.616 4	0.727 10	0.267 7	0.691 6	0.942 9	0.530 10	0.872 5	0.874 8	0.330 7	0.542 12	0.374 7	0.792 4	0.400 12	0.673 4	0.572 7	0.433 2	0.793 7	0.623 7	0.008 15	0.351 8	0.594 7	0.000 1	0.783 11	0.876 7	0.833 4	0.213 5	0.000 7	0.537 7	0.091 6	0.519 4	0.304 7	0.620 7	0.942 1	0.264 5	0.124 8	0.855 6	0.695 5	0.086 7	0.646 9	0.506 13	0.658 6	0.535 6	0.715 4	0.314 2	0.000 3	0.241 5	0.608 2	0.897 2	0.359 8	0.858 9	0.000 4	0.076 15	0.611 11	0.392 10	0.509 7	0.378 4	0.000 1	0.579 4	0.565 14	0.000 4	0.000 8	0.000 1	0.000 6	0.755 7	0.806 10	0.661 4	0.572 13	0.350 9	0.181 7	0.660 9	0.300 12	0.000 3	0.000 7	0.000 1	0.023 8	0.000 4	0.042 14	0.930 4	0.000 1	0.000 9	0.077 7	0.584 7	0.392 9	0.339 8	0.185 7	0.171 10	0.308 2	0.006 12	0.563 3	0.256 9	0.150 4	0.000 5	0.002 14	0.345 12	0.000 1	0.045 12	0.197 4	0.063 9	0.323 11	0.453 3	0.600 8	0.163 8	0.037 13	0.349 4	0.000 1	0.672 3	0.679 4	0.753 3	0.000 1	0.000 8	0.000 10	0.117 5	0.000 6	0.000 9	0.291 9	0.000 10	0.000 6	0.039 6	0.000 1	0.000 2	0.899 2	0.000 1	0.374 11	0.000 1	0.000 11	0.545 4	0.000 1	0.634 5	0.000 1	0.000 1	0.074 10	0.223 4	0.914 7	0.000 8	0.021 6	0.000 1	0.000 6	0.000 1	0.112 5	0.498 10	0.649 1	0.383 9	0.095 2	0.135 13	0.449 10	0.432 10	0.008 8	0.000 1	0.518 6	0.000 2	0.000 2	0.000 10	0.796 4	0.000 2	0.000 1	0.000 1	0.138 12	0.000 7	0.000 3	0.000 9	0.000 1
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
L3DETR-ScanNet_200	0.336 8	0.533 11	0.279 5	0.155 8	0.801 10	0.689 5	0.946 7	0.539 8	0.660 8	0.759 5	0.380 12	0.333 11	0.583 3	0.000 11	0.788 8	0.529 10	0.740 8	0.261 10	0.679 9	0.940 10	0.525 11	0.860 8	0.883 7	0.226 11	0.613 8	0.397 5	0.720 10	0.512 4	0.565 10	0.620 3	0.417 5	0.775 11	0.629 6	0.158 2	0.298 10	0.579 9	0.000 1	0.835 3	0.883 5	0.927 1	0.114 9	0.079 4	0.511 10	0.073 10	0.508 5	0.312 6	0.629 5	0.861 5	0.192 14	0.098 13	0.908 3	0.636 11	0.032 15	0.563 15	0.514 12	0.664 5	0.505 9	0.697 7	0.225 8	0.000 3	0.264 3	0.411 9	0.860 7	0.321 11	0.960 2	0.058 3	0.109 11	0.776 3	0.526 4	0.557 2	0.303 8	0.000 1	0.339 10	0.712 5	0.000 4	0.014 6	0.000 1	0.000 6	0.638 10	0.856 5	0.641 7	0.579 11	0.107 15	0.119 12	0.661 8	0.416 7	0.000 3	0.000 7	0.000 1	0.007 15	0.000 4	0.067 9	0.910 5	0.000 1	0.000 9	0.000 10	0.463 9	0.448 7	0.294 13	0.324 2	0.293 2	0.211 6	0.108 7	0.448 9	0.068 15	0.141 6	0.000 5	0.330 3	0.699 1	0.000 1	0.256 8	0.192 5	0.000 13	0.355 8	0.418 7	0.209 15	0.146 10	0.679 1	0.101 15	0.000 1	0.503 13	0.687 2	0.671 7	0.000 1	0.000 8	0.174 8	0.117 5	0.000 6	0.122 6	0.515 2	0.104 5	0.259 2	0.312 3	0.000 1	0.000 2	0.765 10	0.000 1	0.369 12	0.000 1	0.183 6	0.422 10	0.000 1	0.646 3	0.000 1	0.000 1	0.565 2	0.001 12	0.125 15	0.010 5	0.002 7	0.000 1	0.487 1	0.000 1	0.075 13	0.548 4	0.420 8	0.233 14	0.082 7	0.138 12	0.430 11	0.427 11	0.000 11	0.000 1	0.549 5	0.000 2	0.000 2	0.074 8	0.409 14	0.000 2	0.000 1	0.000 1	0.152 7	0.051 3	0.000 3	0.598 4	0.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, Jian Zhang: Language-Assisted 3D Scene Understanding. arXiv23.12
LGround	0.272 13	0.485 13	0.184 13	0.106 13	0.778 13	0.676 10	0.932 13	0.479 15	0.572 13	0.718 12	0.399 9	0.265 12	0.453 14	0.085 3	0.745 13	0.446 13	0.726 11	0.232 13	0.622 13	0.901 13	0.512 12	0.826 13	0.786 14	0.178 14	0.549 10	0.277 13	0.659 13	0.381 13	0.518 12	0.295 15	0.323 12	0.777 10	0.599 10	0.028 11	0.321 9	0.363 14	0.000 1	0.708 13	0.858 13	0.746 10	0.063 12	0.022 5	0.457 13	0.077 9	0.476 10	0.243 13	0.402 12	0.397 15	0.233 10	0.077 15	0.720 14	0.610 14	0.103 5	0.629 11	0.437 15	0.626 10	0.446 12	0.702 6	0.190 10	0.005 1	0.058 14	0.322 11	0.702 14	0.244 13	0.768 12	0.000 4	0.134 10	0.552 13	0.279 14	0.395 13	0.147 14	0.000 1	0.207 13	0.612 12	0.000 4	0.000 8	0.000 1	0.000 6	0.658 9	0.566 13	0.323 13	0.525 15	0.229 11	0.179 8	0.467 15	0.154 14	0.000 3	0.002 5	0.000 1	0.051 1	0.000 4	0.127 2	0.703 11	0.000 1	0.000 9	0.216 1	0.112 14	0.358 10	0.547 1	0.187 6	0.092 14	0.156 15	0.055 9	0.296 13	0.252 10	0.143 5	0.000 5	0.014 12	0.398 8	0.000 1	0.028 14	0.173 6	0.000 13	0.265 14	0.348 13	0.415 14	0.179 5	0.019 14	0.218 8	0.000 1	0.597 7	0.274 15	0.565 11	0.000 1	0.012 5	0.000 10	0.039 14	0.022 3	0.000 9	0.117 13	0.000 10	0.000 6	0.000 10	0.000 1	0.000 2	0.324 14	0.000 1	0.384 9	0.000 1	0.000 11	0.251 15	0.000 1	0.566 10	0.000 1	0.000 1	0.066 11	0.404 1	0.886 11	0.199 2	0.000 8	0.000 1	0.059 3	0.000 1	0.136 1	0.540 5	0.127 15	0.295 10	0.085 6	0.143 7	0.514 6	0.413 13	0.000 11	0.000 1	0.498 8	0.000 2	0.000 2	0.000 10	0.623 10	0.000 2	0.000 1	0.000 1	0.132 14	0.000 7	0.000 3	0.000 9	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild. arXiv
AWCS	0.305 12	0.508 12	0.225 12	0.142 9	0.782 12	0.634 15	0.937 12	0.489 13	0.578 12	0.721 10	0.364 13	0.355 10	0.515 9	0.023 7	0.764 12	0.523 11	0.707 12	0.264 9	0.633 12	0.922 11	0.507 13	0.886 1	0.804 13	0.179 13	0.436 14	0.300 12	0.656 14	0.529 2	0.501 13	0.394 11	0.296 14	0.820 5	0.603 9	0.131 4	0.179 15	0.619 2	0.000 1	0.707 14	0.865 12	0.773 6	0.171 6	0.010 6	0.484 12	0.063 13	0.463 12	0.254 11	0.332 14	0.649 11	0.220 11	0.100 11	0.729 12	0.613 13	0.071 11	0.582 13	0.628 7	0.702 4	0.424 13	0.749 2	0.137 13	0.000 3	0.142 12	0.360 10	0.863 5	0.305 12	0.877 8	0.000 4	0.173 3	0.606 12	0.337 12	0.478 10	0.154 13	0.000 1	0.253 12	0.664 7	0.000 4	0.000 8	0.000 1	0.000 6	0.626 11	0.782 11	0.302 14	0.602 6	0.185 12	0.282 6	0.651 10	0.317 11	0.000 3	0.000 7	0.000 1	0.022 9	0.000 4	0.154 1	0.876 8	0.000 1	0.014 8	0.063 9	0.029 15	0.553 6	0.467 3	0.084 10	0.124 12	0.157 14	0.049 11	0.373 12	0.252 10	0.097 12	0.000 5	0.219 5	0.542 3	0.000 1	0.392 5	0.172 7	0.000 13	0.339 9	0.417 8	0.533 12	0.093 13	0.115 8	0.195 9	0.000 1	0.516 10	0.288 14	0.741 4	0.000 1	0.001 7	0.233 5	0.056 12	0.000 6	0.159 5	0.334 8	0.077 8	0.000 6	0.000 10	0.000 1	0.000 2	0.749 11	0.000 1	0.411 8	0.000 1	0.008 10	0.452 9	0.000 1	0.595 9	0.000 1	0.000 1	0.220 9	0.006 9	0.894 10	0.006 6	0.000 8	0.000 1	0.000 6	0.000 1	0.112 5	0.504 8	0.404 9	0.551 1	0.093 4	0.129 15	0.484 8	0.381 15	0.000 11	0.000 1	0.396 13	0.000 2	0.000 2	0.620 3	0.402 15	0.000 2	0.000 1	0.000 1	0.142 9	0.000 7	0.000 3	0.512 5	0.000 1

OA-CNN-L_ScanNet200	0.333 9	0.558 4	0.269 9	0.124 11	0.821 5	0.703 3	0.946 7	0.569 4	0.662 5	0.748 9	0.487 3	0.455 3	0.572 6	0.000 11	0.789 7	0.534 9	0.736 9	0.271 6	0.713 4	0.949 6	0.498 14	0.877 3	0.860 9	0.332 6	0.706 1	0.474 2	0.788 6	0.406 11	0.637 6	0.495 9	0.355 10	0.805 6	0.592 12	0.015 14	0.396 5	0.602 6	0.000 1	0.799 8	0.876 7	0.713 13	0.276 3	0.000 7	0.493 11	0.080 8	0.448 13	0.363 5	0.661 4	0.833 6	0.262 6	0.125 7	0.823 9	0.665 9	0.076 9	0.720 7	0.557 8	0.637 8	0.517 8	0.672 10	0.227 7	0.000 3	0.158 10	0.496 5	0.843 10	0.352 9	0.835 11	0.000 4	0.103 12	0.711 5	0.527 3	0.526 5	0.320 7	0.000 1	0.568 6	0.625 10	0.067 1	0.000 8	0.000 1	0.001 5	0.806 6	0.836 8	0.621 9	0.591 7	0.373 8	0.314 5	0.668 7	0.398 9	0.003 2	0.000 7	0.000 1	0.016 14	0.024 3	0.043 13	0.906 6	0.000 1	0.052 5	0.000 10	0.384 10	0.330 11	0.342 7	0.100 9	0.223 7	0.183 11	0.112 6	0.476 5	0.313 7	0.130 9	0.196 3	0.112 10	0.370 11	0.000 1	0.234 9	0.071 8	0.160 7	0.403 5	0.398 11	0.492 13	0.197 4	0.076 11	0.272 5	0.000 1	0.200 15	0.560 8	0.735 5	0.000 1	0.000 8	0.000 10	0.110 7	0.002 5	0.021 8	0.412 6	0.000 10	0.000 6	0.000 10	0.000 1	0.000 2	0.794 9	0.000 1	0.445 6	0.000 1	0.022 9	0.509 6	0.000 1	0.517 13	0.000 1	0.000 1	0.001 14	0.245 3	0.915 6	0.024 4	0.089 5	0.000 1	0.262 2	0.000 1	0.103 10	0.524 7	0.392 10	0.515 2	0.013 15	0.251 4	0.411 12	0.662 3	0.001 10	0.000 1	0.473 11	0.000 2	0.000 2	0.150 5	0.699 8	0.000 2	0.000 1	0.000 1	0.166 6	0.000 7	0.024 2	0.000 9	0.000 1

PonderV2 ScanNet200	0.346 5	0.552 7	0.270 8	0.175 6	0.810 8	0.682 8	0.950 4	0.560 6	0.641 10	0.761 4	0.398 10	0.357 9	0.570 7	0.113 2	0.804 5	0.603 6	0.750 6	0.283 4	0.681 7	0.952 5	0.548 5	0.874 4	0.852 11	0.290 9	0.700 2	0.356 10	0.792 4	0.445 9	0.545 11	0.436 10	0.351 11	0.787 8	0.611 8	0.050 9	0.290 12	0.519 11	0.000 1	0.825 7	0.888 4	0.842 3	0.259 4	0.100 2	0.558 6	0.070 12	0.497 7	0.247 12	0.457 11	0.889 3	0.248 9	0.106 10	0.817 10	0.691 6	0.094 6	0.729 5	0.636 6	0.620 11	0.503 10	0.660 11	0.243 6	0.000 3	0.212 7	0.590 4	0.860 7	0.400 5	0.881 7	0.000 4	0.202 2	0.622 10	0.408 9	0.499 8	0.261 9	0.000 1	0.385 9	0.636 9	0.000 4	0.000 8	0.000 1	0.000 6	0.433 14	0.843 7	0.660 6	0.574 12	0.481 3	0.336 4	0.677 6	0.486 5	0.000 3	0.030 3	0.000 1	0.034 5	0.000 4	0.080 7	0.869 9	0.000 1	0.000 9	0.000 10	0.540 8	0.727 3	0.232 14	0.115 8	0.186 8	0.193 8	0.000 13	0.403 10	0.326 6	0.103 11	0.000 5	0.290 4	0.392 9	0.000 1	0.346 7	0.062 9	0.424 5	0.375 7	0.431 5	0.667 4	0.115 12	0.082 10	0.239 7	0.000 1	0.504 12	0.606 6	0.584 10	0.000 1	0.002 6	0.186 7	0.104 9	0.000 6	0.394 4	0.384 7	0.083 7	0.000 6	0.007 8	0.000 1	0.000 2	0.880 4	0.000 1	0.377 10	0.000 1	0.263 3	0.565 2	0.000 1	0.608 8	0.000 1	0.000 1	0.304 7	0.009 8	0.924 3	0.000 8	0.000 8	0.000 1	0.000 6	0.000 1	0.128 3	0.584 3	0.475 6	0.412 7	0.076 9	0.269 3	0.621 5	0.509 7	0.010 6	0.000 1	0.491 9	0.063 1	0.000 2	0.472 4	0.880 2	0.000 2	0.000 1	0.000 1	0.179 5	0.125 2	0.000 3	0.441 6	0.000 1
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
OctFormer ScanNet200	0.326 11	0.539 9	0.265 10	0.131 10	0.806 9	0.670 11	0.943 10	0.535 9	0.662 5	0.705 14	0.423 8	0.407 5	0.505 10	0.003 9	0.765 11	0.582 8	0.686 13	0.227 14	0.680 8	0.943 8	0.601 3	0.854 10	0.892 5	0.335 5	0.417 15	0.357 9	0.724 9	0.453 8	0.632 7	0.596 5	0.432 3	0.783 9	0.512 14	0.021 13	0.244 13	0.637 1	0.000 1	0.787 9	0.873 10	0.743 11	0.000 15	0.000 7	0.534 9	0.110 3	0.499 6	0.289 8	0.626 6	0.620 12	0.168 15	0.204 2	0.849 7	0.679 7	0.117 4	0.633 10	0.684 3	0.650 7	0.552 5	0.684 9	0.312 3	0.000 3	0.175 9	0.429 8	0.865 4	0.413 4	0.837 10	0.000 4	0.145 7	0.626 9	0.451 8	0.487 9	0.513 1	0.000 1	0.529 7	0.613 11	0.000 4	0.033 5	0.000 1	0.000 6	0.828 5	0.871 4	0.622 8	0.587 9	0.411 7	0.137 10	0.645 12	0.343 10	0.000 3	0.000 7	0.000 1	0.022 9	0.000 4	0.026 15	0.829 10	0.000 1	0.022 7	0.089 6	0.842 3	0.253 13	0.318 10	0.296 3	0.178 9	0.291 3	0.224 2	0.584 2	0.200 12	0.132 8	0.000 5	0.128 9	0.227 14	0.000 1	0.230 10	0.047 10	0.149 8	0.331 10	0.412 9	0.618 7	0.164 7	0.102 9	0.522 1	0.000 1	0.655 4	0.378 11	0.469 13	0.000 1	0.000 8	0.000 10	0.105 8	0.000 6	0.000 9	0.483 3	0.000 10	0.000 6	0.028 7	0.000 1	0.000 2	0.906 1	0.000 1	0.339 13	0.000 1	0.000 11	0.457 8	0.000 1	0.612 7	0.000 1	0.000 1	0.408 3	0.000 13	0.900 8	0.000 8	0.000 8	0.000 1	0.029 4	0.000 1	0.074 14	0.455 13	0.479 5	0.427 6	0.079 8	0.140 9	0.496 7	0.414 12	0.022 5	0.000 1	0.471 12	0.000 2	0.000 2	0.000 10	0.722 6	0.000 2	0.000 1	0.000 1	0.138 12	0.000 7	0.000 3	0.000 9	0.000 1
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
BFANet ScanNet200	0.360 4	0.553 6	0.293 4	0.193 4	0.827 4	0.689 5	0.970 3	0.528 10	0.661 7	0.753 7	0.436 7	0.378 7	0.469 13	0.042 5	0.810 3	0.654 1	0.760 4	0.266 8	0.659 10	0.973 3	0.574 4	0.849 12	0.897 4	0.382 2	0.546 11	0.372 8	0.698 11	0.491 6	0.617 8	0.526 8	0.436 1	0.764 12	0.476 15	0.101 6	0.409 4	0.585 8	0.000 1	0.835 3	0.901 3	0.810 5	0.102 11	0.000 7	0.688 2	0.096 5	0.483 9	0.264 10	0.612 8	0.591 14	0.358 2	0.161 6	0.863 5	0.707 4	0.128 2	0.814 3	0.669 5	0.629 9	0.563 4	0.651 12	0.258 4	0.000 3	0.194 8	0.494 6	0.806 11	0.394 6	0.953 4	0.000 4	0.233 1	0.757 4	0.508 6	0.556 3	0.476 3	0.000 1	0.573 5	0.741 4	0.000 4	0.000 8	0.000 1	0.000 6	0.000 15	0.852 6	0.678 3	0.616 5	0.460 4	0.338 3	0.710 2	0.534 4	0.000 3	0.025 4	0.000 1	0.043 2	0.000 4	0.056 11	0.493 15	0.000 1	0.000 9	0.109 4	0.785 5	0.590 5	0.298 12	0.282 4	0.143 11	0.262 4	0.053 10	0.526 4	0.337 5	0.215 1	0.000 5	0.135 7	0.510 4	0.000 1	0.596 2	0.043 11	0.511 4	0.321 12	0.459 2	0.772 2	0.124 11	0.060 12	0.266 6	0.000 1	0.574 8	0.568 7	0.653 9	0.000 1	0.093 1	0.298 2	0.239 2	0.000 6	0.516 2	0.129 12	0.284 2	0.000 6	0.431 1	0.000 1	0.000 2	0.848 7	0.000 1	0.492 2	0.000 1	0.376 2	0.522 5	0.000 1	0.469 15	0.000 1	0.000 1	0.330 6	0.151 6	0.875 13	0.000 8	0.254 3	0.000 1	0.000 6	0.000 1	0.088 12	0.661 1	0.481 4	0.255 11	0.105 1	0.139 10	0.666 4	0.641 4	0.000 11	0.000 1	0.614 2	0.000 2	0.000 2	0.000 10	0.921 1	0.000 2	0.000 1	0.000 1	0.497 1	0.000 7	0.000 3	0.000 9	0.000 1

Minkowski 34D	0.253 14	0.463 14	0.154 15	0.102 14	0.771 14	0.650 14	0.932 13	0.483 14	0.571 14	0.710 13	0.331 14	0.250 13	0.492 11	0.044 4	0.703 14	0.419 15	0.606 15	0.227 14	0.621 14	0.865 15	0.531 9	0.771 15	0.813 12	0.291 8	0.484 13	0.242 14	0.612 15	0.282 15	0.440 15	0.351 13	0.299 13	0.622 14	0.593 11	0.027 12	0.293 11	0.310 15	0.000 1	0.757 12	0.858 13	0.737 12	0.150 7	0.164 1	0.368 15	0.084 7	0.381 15	0.142 15	0.357 13	0.720 9	0.214 12	0.092 14	0.724 13	0.596 15	0.056 12	0.655 8	0.525 11	0.581 15	0.352 15	0.594 14	0.056 15	0.000 3	0.014 15	0.224 13	0.772 13	0.205 15	0.720 14	0.000 4	0.159 5	0.531 14	0.163 15	0.294 14	0.136 15	0.000 1	0.169 14	0.589 13	0.000 4	0.000 8	0.000 1	0.002 4	0.663 8	0.466 15	0.265 15	0.582 10	0.337 10	0.016 13	0.559 13	0.084 15	0.000 3	0.000 7	0.000 1	0.036 4	0.000 4	0.125 3	0.670 12	0.000 1	0.102 2	0.071 8	0.164 13	0.406 8	0.386 6	0.046 13	0.068 15	0.159 13	0.117 5	0.284 14	0.111 14	0.094 13	0.000 5	0.000 15	0.197 15	0.000 1	0.044 13	0.013 12	0.002 12	0.228 15	0.307 15	0.588 10	0.025 15	0.545 5	0.134 13	0.000 1	0.655 4	0.302 13	0.282 15	0.000 1	0.060 2	0.000 10	0.035 15	0.000 6	0.000 9	0.097 15	0.000 10	0.000 6	0.005 9	0.000 1	0.000 2	0.096 15	0.000 1	0.334 14	0.000 1	0.000 11	0.274 14	0.000 1	0.513 14	0.000 1	0.000 1	0.280 8	0.194 5	0.897 9	0.000 8	0.000 8	0.000 1	0.000 6	0.000 1	0.108 9	0.279 15	0.189 14	0.141 15	0.059 13	0.272 2	0.307 15	0.445 8	0.003 9	0.000 1	0.353 14	0.000 2	0.026 1	0.000 10	0.581 12	0.001 1	0.000 1	0.000 1	0.093 15	0.002 6	0.000 3	0.000 9	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
GSTran	0.339 7	0.536 10	0.273 6	0.169 7	0.811 7	0.690 4	0.949 5	0.506 11	0.690 4	0.765 2	0.397 11	0.235 14	0.480 12	0.014 8	0.788 8	0.593 7	0.746 7	0.282 5	0.696 5	0.913 12	0.538 7	0.853 11	0.889 6	0.286 10	0.670 3	0.310 11	0.682 12	0.445 9	0.638 5	0.598 4	0.358 9	0.841 2	0.643 4	0.061 8	0.373 6	0.614 4	0.000 1	0.786 10	0.876 7	0.754 8	0.357 1	0.000 7	0.535 8	0.071 11	0.491 8	0.369 4	0.487 10	0.698 10	0.317 3	0.202 3	0.659 15	0.666 8	0.086 7	0.832 1	0.461 14	0.597 12	0.455 11	0.731 3	0.156 12	0.000 3	0.316 1	0.318 12	0.784 12	0.348 10	0.896 6	0.000 4	0.084 14	0.648 8	0.514 5	0.470 11	0.368 5	0.000 1	0.441 8	0.705 6	0.000 4	0.079 3	0.000 1	0.021 3	0.872 2	0.872 3	0.621 9	0.589 8	0.144 14	0.129 11	0.648 11	0.459 6	0.000 3	0.000 7	0.000 1	0.022 9	0.289 2	0.096 5	0.667 13	0.000 1	0.000 9	0.000 10	0.834 4	0.682 4	0.178 15	0.033 14	0.256 5	0.196 7	0.000 13	0.473 6	0.279 8	0.079 14	0.008 4	0.495 1	0.425 7	0.000 1	0.228 11	0.009 13	0.564 3	0.410 4	0.366 12	0.665 5	0.161 9	0.615 2	0.365 3	0.000 1	0.609 6	0.386 10	0.681 6	0.000 1	0.000 8	0.199 6	0.093 10	0.497 1	0.109 7	0.252 10	0.161 4	0.118 4	0.000 10	0.000 1	0.000 2	0.857 6	0.000 1	0.495 1	0.000 1	0.162 7	0.412 11	0.000 1	0.563 11	0.000 1	0.000 1	0.000 15	0.012 7	0.877 12	0.004 7	0.000 8	0.000 1	0.002 5	0.000 1	0.109 7	0.458 12	0.358 11	0.246 13	0.060 12	0.139 10	0.466 9	0.803 1	0.097 2	0.000 1	0.517 7	0.000 2	0.000 2	0.060 9	0.413 13	0.000 2	0.000 1	0.000 1	0.183 4	0.024 5	0.000 3	0.297 7	0.000 1

CeCo	0.340 6	0.551 8	0.247 11	0.181 5	0.784 11	0.661 12	0.939 11	0.564 5	0.624 11	0.721 10	0.484 4	0.429 4	0.575 4	0.027 6	0.774 10	0.503 12	0.753 5	0.242 11	0.656 11	0.945 7	0.534 8	0.865 6	0.860 9	0.177 15	0.616 7	0.400 4	0.818 2	0.579 1	0.615 9	0.367 12	0.408 6	0.726 13	0.633 5	0.162 1	0.360 7	0.619 2	0.000 1	0.828 6	0.873 10	0.924 2	0.109 10	0.083 3	0.564 5	0.057 15	0.475 11	0.266 9	0.781 1	0.767 7	0.257 7	0.100 11	0.825 8	0.663 10	0.048 13	0.620 12	0.551 9	0.595 13	0.532 7	0.692 8	0.246 5	0.000 3	0.213 6	0.615 1	0.861 6	0.376 7	0.900 5	0.000 4	0.102 13	0.660 7	0.321 13	0.547 4	0.226 11	0.000 1	0.311 11	0.742 3	0.011 3	0.006 7	0.000 1	0.000 6	0.546 13	0.824 9	0.345 12	0.665 3	0.450 5	0.435 1	0.683 5	0.411 8	0.338 1	0.000 7	0.000 1	0.030 6	0.000 4	0.068 8	0.892 7	0.000 1	0.063 4	0.000 10	0.257 11	0.304 12	0.387 5	0.079 11	0.228 6	0.190 10	0.000 13	0.586 1	0.347 4	0.133 7	0.000 5	0.037 11	0.377 10	0.000 1	0.384 6	0.006 14	0.003 11	0.421 3	0.410 10	0.643 6	0.171 6	0.121 7	0.142 12	0.000 1	0.510 11	0.447 9	0.474 12	0.000 1	0.000 8	0.286 3	0.083 11	0.000 6	0.000 9	0.603 1	0.096 6	0.063 5	0.000 10	0.000 1	0.000 2	0.898 3	0.000 1	0.429 7	0.000 1	0.400 1	0.550 3	0.000 1	0.633 6	0.000 1	0.000 1	0.377 4	0.000 13	0.916 5	0.000 8	0.000 8	0.000 1	0.000 6	0.000 1	0.102 11	0.499 9	0.296 12	0.463 5	0.089 5	0.304 1	0.740 2	0.401 14	0.010 6	0.000 1	0.560 3	0.000 2	0.000 2	0.709 2	0.652 9	0.000 2	0.000 1	0.000 1	0.143 8	0.000 7	0.000 3	0.609 3	0.000 1
Zhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia: Understanding Imbalanced Semantic Segmentation Through Neural Collapse. CVPR 2023
CSC-Pretrain	0.249 15	0.455 15	0.171 14	0.079 15	0.766 15	0.659 13	0.930 15	0.494 12	0.542 15	0.700 15	0.314 15	0.215 15	0.430 15	0.121 1	0.697 15	0.441 14	0.683 14	0.235 12	0.609 15	0.895 14	0.476 15	0.816 14	0.770 15	0.186 12	0.634 5	0.216 15	0.734 8	0.340 14	0.471 14	0.307 14	0.293 15	0.591 15	0.542 13	0.076 7	0.205 14	0.464 13	0.000 1	0.484 15	0.832 15	0.766 7	0.052 13	0.000 7	0.413 14	0.059 14	0.418 14	0.222 14	0.318 15	0.609 13	0.206 13	0.112 9	0.743 11	0.625 12	0.076 9	0.579 14	0.548 10	0.590 14	0.371 14	0.552 15	0.081 14	0.003 2	0.142 12	0.201 14	0.638 15	0.233 14	0.686 15	0.000 4	0.142 8	0.444 15	0.375 11	0.247 15	0.198 12	0.000 1	0.128 15	0.454 15	0.019 2	0.097 1	0.000 1	0.000 6	0.553 12	0.557 14	0.373 11	0.545 14	0.164 13	0.014 14	0.547 14	0.174 13	0.000 3	0.002 5	0.000 1	0.037 3	0.000 4	0.063 10	0.664 14	0.000 1	0.000 9	0.130 2	0.170 12	0.152 15	0.335 9	0.079 11	0.110 13	0.175 12	0.098 8	0.175 15	0.166 13	0.045 15	0.207 2	0.014 12	0.465 5	0.000 1	0.001 15	0.001 15	0.046 10	0.299 13	0.327 14	0.537 11	0.033 14	0.012 15	0.186 10	0.000 1	0.205 14	0.377 12	0.463 14	0.000 1	0.058 3	0.000 10	0.055 13	0.041 2	0.000 9	0.105 14	0.000 10	0.000 6	0.000 10	0.000 1	0.000 2	0.398 13	0.000 1	0.308 15	0.000 1	0.000 11	0.319 13	0.000 1	0.543 12	0.000 1	0.000 1	0.062 12	0.004 11	0.862 14	0.000 8	0.000 8	0.000 1	0.000 6	0.000 1	0.123 4	0.316 14	0.225 13	0.250 12	0.094 3	0.180 6	0.332 14	0.441 9	0.000 11	0.000 1	0.310 15	0.000 2	0.000 2	0.000 10	0.592 11	0.000 2	0.000 1	0.000 1	0.203 2	0.000 7	0.000 3	0.000 9	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021

This table lists the benchmark results for the ScanNet200 3D semantic instance scenario.

Method	avg ap	head ap	common ap	tail ap	chair	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

TD3D Scannet200	0.211 2	0.332 2	0.177 2	0.103 2	0.662 1	0.413 2	0.463 2	0.705 1	0.192 3	0.145 1	0.266 2	0.215 1	0.452 4	0.209 2	0.222 5	0.219 5	0.315 2	0.893 1	0.380 2	0.617 2	0.439 2	0.047 4	0.646 1	0.080 2	0.610 3	0.253 1	0.237 2	0.293 2	0.135 1	0.379 5	0.494 2	0.048 1	0.252 2	0.451 2	0.184 2	0.483 1	0.395 2	0.852 1	0.083 2	0.551 2	0.278 2	0.036 2	0.337 2	0.266 2	0.544 1	0.963 1	0.079 5	0.039 1	0.740 2	0.604 2	0.000 2	0.586 1	0.283 2	0.282 2	0.059 2	0.633 3	0.028 2	0.004 2	0.559 2	0.309 2	0.420 2	0.028 5	1.000 1	0.000 1	0.456 1	0.411 1	0.372 1	0.060 4	0.046 4	0.000 2	0.040 4	0.694 1	0.083 2	0.000 2	0.000 1	0.000 2	0.000 3	0.083 4	0.252 2	0.260 5	0.200 1	0.160 1	0.669 2	0.111 2	0.000 2	0.000 1	0.006 2	0.169 2	0.000 1	0.007 1	0.296 2	0.032 1	0.074 1	0.139 3	0.000 2	0.321 2	0.031 1	0.108 2	0.088 2	0.157 1	0.000 1	0.231 5	0.026 5	0.000 2	0.000 1	0.356 2	0.052 2	0.000 1	0.240 1	0.147 1	0.000 1	0.015 2	0.046 3	0.144 3	0.073 3	0.414 1	0.222 4	0.000 1	0.806 1	0.343 3	0.486 3	0.000 1	0.008 1	0.038 2	0.083 1	0.002 1	0.028 2	0.074 2	0.032 2	0.150 2	0.039 2	0.008 1	0.000 1	0.250 4	0.000 1	0.125 4	0.000 1	0.052 2	0.260 3	0.000 1	0.143 5	0.000 1	0.000 1	0.543 2	0.207 2	0.404 1	0.000 1	0.003 2	0.000 1	0.000 2	0.000 1	0.037 2	0.093 4	0.272 2	0.342 1	0.039 4	0.281 2	0.249 3	0.224 1	0.000 2	0.000 1	0.074 1	0.000 1	0.000 1	0.000 2	0.278 2	0.000 1	0.000 2	0.889 1	0.323 1	0.000 2	0.014 1	0.000 2	0.000 1
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
Mask3D Scannet200	0.278 1	0.383 1	0.263 1	0.168 1	0.661 2	0.465 1	0.572 1	0.665 3	0.391 1	0.121 4	0.304 1	0.015 2	0.647 1	0.349 1	0.474 1	0.489 1	0.321 1	0.816 5	0.351 3	0.722 1	0.402 4	0.195 1	0.515 3	0.082 1	0.795 1	0.215 2	0.396 1	0.377 1	0.082 4	0.724 1	0.586 1	0.015 2	0.277 1	0.377 5	0.201 1	0.475 2	0.572 1	0.778 3	0.089 1	0.759 1	0.556 1	0.068 1	0.506 1	0.467 1	0.323 3	0.778 2	0.427 1	0.027 2	0.789 1	0.744 1	0.003 1	0.570 2	0.561 1	0.337 1	0.265 1	0.711 1	0.258 1	0.031 1	0.569 1	0.311 1	0.441 1	0.179 1	1.000 1	0.000 1	0.233 2	0.411 2	0.283 2	0.380 1	0.667 1	0.016 1	0.048 3	0.418 2	0.139 1	0.173 1	0.000 1	0.086 1	0.014 2	0.500 1	0.384 1	0.497 1	0.044 3	0.032 2	0.752 1	0.287 1	0.003 1	0.000 1	0.007 1	0.208 1	0.000 1	0.001 2	0.349 1	0.008 2	0.014 2	0.509 1	0.500 1	0.323 1	0.023 2	0.176 1	0.107 1	0.105 3	0.000 1	0.605 1	0.378 1	0.016 1	0.000 1	0.400 1	0.192 1	0.000 1	0.048 2	0.037 2	0.000 1	0.275 1	0.119 1	0.810 1	0.258 1	0.006 3	0.083 5	0.000 1	0.568 2	0.377 2	0.708 1	0.000 1	0.005 2	0.147 1	0.014 2	0.000 2	0.556 1	0.085 1	0.325 1	0.500 1	0.083 1	0.004 2	0.000 1	0.590 1	0.000 1	0.365 1	0.000 1	0.116 1	0.491 1	0.000 1	0.626 1	0.000 1	0.000 1	0.579 1	0.391 1	0.050 4	0.000 1	0.028 1	0.000 1	0.222 1	0.000 1	0.063 1	0.302 1	0.356 1	0.149 4	0.573 1	0.415 1	0.013 5	0.002 4	0.004 1	0.000 1	0.005 4	0.000 1	0.000 1	0.444 1	0.514 1	0.000 1	0.028 1	0.000 2	0.156 2	0.267 1	0.000 2	1.000 1	0.000 1
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
Minkowski 34D Inst.	0.130 4	0.246 4	0.083 4	0.043 5	0.547 5	0.236 4	0.415 4	0.672 2	0.141 5	0.133 3	0.067 4	0.000 3	0.521 2	0.114 5	0.238 4	0.289 2	0.232 4	0.883 2	0.182 5	0.373 5	0.486 1	0.076 3	0.488 4	0.022 4	0.529 4	0.199 5	0.110 4	0.217 4	0.100 2	0.460 4	0.319 4	0.000 3	0.025 5	0.472 1	0.000 3	0.394 3	0.210 4	0.537 4	0.004 4	0.000 3	0.083 5	0.000 5	0.299 4	0.061 5	0.201 5	0.761 4	0.084 4	0.008 3	0.720 3	0.557 5	0.000 2	0.317 5	0.280 3	0.094 5	0.020 5	0.564 5	0.000 4	0.000 3	0.400 3	0.048 4	0.259 4	0.101 3	1.000 1	0.000 1	0.190 3	0.142 5	0.094 5	0.137 3	0.089 3	0.000 2	0.101 1	0.355 5	0.000 3	0.000 2	0.000 1	0.000 2	0.000 3	0.444 2	0.082 5	0.384 2	0.000 5	0.000 3	0.334 5	0.004 5	0.000 2	0.000 1	0.000 3	0.041 4	0.000 1	0.000 3	0.026 5	0.000 3	0.000 3	0.000 4	0.000 2	0.082 5	0.022 3	0.000 5	0.021 4	0.088 4	0.000 1	0.241 4	0.033 4	0.000 2	0.000 1	0.067 3	0.000 5	0.000 1	0.000 3	0.000 3	0.000 1	0.000 4	0.026 4	0.262 2	0.016 4	0.000 4	0.278 1	0.000 1	0.500 4	0.394 1	0.028 5	0.000 1	0.000 3	0.000 3	0.000 3	0.000 2	0.000 3	0.019 4	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.156 5	0.000 1	0.032 5	0.000 1	0.000 3	0.194 5	0.000 1	0.248 4	0.000 1	0.000 1	0.099 4	0.019 4	0.308 2	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.007 4	0.122 2	0.000 3	0.175 3	0.063 2	0.000 4	0.271 1	0.000 5	0.000 2	0.000 1	0.000 5	0.000 1	0.000 1	0.000 2	0.278 2	0.000 1	0.000 2	0.000 2	0.111 3	0.000 2	0.000 2	0.000 2	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
CSC-Pretrain Inst.	0.123 5	0.223 5	0.082 5	0.046 4	0.564 4	0.152 5	0.394 5	0.578 5	0.235 2	0.116 5	0.034 5	0.000 3	0.348 5	0.119 4	0.297 2	0.285 3	0.202 5	0.838 4	0.323 4	0.407 4	0.184 5	0.037 5	0.516 2	0.013 5	0.424 5	0.214 3	0.093 5	0.105 5	0.078 5	0.542 3	0.250 5	0.000 3	0.064 4	0.444 3	0.000 3	0.224 5	0.231 3	0.537 4	0.001 5	0.000 3	0.126 4	0.004 3	0.308 3	0.193 3	0.244 4	0.343 5	0.228 2	0.000 5	0.441 4	0.588 3	0.000 2	0.338 4	0.275 4	0.189 4	0.030 4	0.600 4	0.000 4	0.000 3	0.378 4	0.000 5	0.108 5	0.098 4	1.000 1	0.000 1	0.096 5	0.172 4	0.144 3	0.011 5	0.125 2	0.000 2	0.000 5	0.376 4	0.000 3	0.000 2	0.000 1	0.000 2	0.000 3	0.042 5	0.141 4	0.377 3	0.051 2	0.000 3	0.483 3	0.017 4	0.000 2	0.000 1	0.000 3	0.022 5	0.000 1	0.000 3	0.065 3	0.000 3	0.000 3	0.000 4	0.000 2	0.094 4	0.000 5	0.042 3	0.000 5	0.064 5	0.000 1	0.259 3	0.089 3	0.000 2	0.000 1	0.000 4	0.022 4	0.000 1	0.000 3	0.000 3	0.000 1	0.000 4	0.018 5	0.111 5	0.000 5	0.000 4	0.278 1	0.000 1	0.444 5	0.333 4	0.333 4	0.000 1	0.000 3	0.000 3	0.000 3	0.000 2	0.000 3	0.000 5	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.267 3	0.000 1	0.184 3	0.000 1	0.000 3	0.211 4	0.000 1	0.378 2	0.000 1	0.000 1	0.063 5	0.000 5	0.275 3	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.007 5	0.105 3	0.000 3	0.032 5	0.045 3	0.198 3	0.171 4	0.028 2	0.000 2	0.000 1	0.006 3	0.000 1	0.000 1	0.000 2	0.278 2	0.000 1	0.000 2	0.000 2	0.044 4	0.000 2	0.000 2	0.000 2	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
LGround Inst.	0.154 3	0.275 3	0.108 3	0.060 3	0.573 3	0.381 3	0.434 3	0.654 4	0.190 4	0.141 2	0.097 3	0.000 3	0.503 3	0.180 3	0.252 3	0.242 4	0.242 3	0.881 3	0.448 1	0.494 3	0.429 3	0.078 2	0.364 5	0.024 3	0.654 2	0.213 4	0.222 3	0.239 3	0.099 3	0.616 2	0.363 3	0.000 3	0.092 3	0.444 3	0.000 3	0.383 4	0.209 5	0.815 2	0.030 3	0.000 3	0.166 3	0.002 4	0.295 5	0.099 4	0.364 2	0.778 2	0.177 3	0.001 4	0.427 5	0.585 4	0.000 2	0.470 3	0.268 5	0.205 3	0.045 3	0.642 2	0.007 3	0.000 3	0.333 5	0.148 3	0.407 3	0.130 2	1.000 1	0.000 1	0.156 4	0.189 3	0.097 4	0.169 2	0.000 5	0.000 2	0.056 2	0.400 3	0.000 3	0.000 2	0.000 1	0.000 2	0.556 1	0.278 3	0.203 3	0.323 4	0.019 4	0.000 3	0.402 4	0.026 3	0.000 2	0.000 1	0.000 3	0.044 3	0.000 1	0.000 3	0.037 4	0.000 3	0.000 3	0.181 2	0.000 2	0.127 3	0.006 4	0.028 4	0.023 3	0.115 2	0.000 1	0.327 2	0.267 2	0.000 2	0.000 1	0.000 4	0.028 3	0.000 1	0.000 3	0.000 3	0.000 1	0.003 3	0.048 2	0.135 4	0.222 2	0.089 2	0.278 1	0.000 1	0.514 3	0.333 4	0.611 2	0.000 1	0.000 3	0.000 3	0.000 3	0.000 2	0.000 3	0.037 3	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.322 2	0.000 1	0.209 2	0.000 1	0.000 3	0.278 2	0.000 1	0.302 3	0.000 1	0.000 1	0.143 3	0.148 3	0.000 5	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.015 3	0.064 5	0.000 3	0.272 2	0.031 5	0.000 4	0.257 2	0.028 2	0.000 2	0.000 1	0.041 2	0.000 1	0.000 1	0.000 2	0.222 5	0.000 1	0.000 2	0.000 2	0.000 5	0.000 2	0.000 2	0.000 2	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild.

ScanNet Benchmark

This table lists the benchmark results for the 3D semantic label scenario.

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

PTv3-PPT-ALC	0.798 1	0.911 10	0.812 21	0.854 7	0.770 12	0.856 14	0.555 15	0.943 1	0.660 24	0.735 2	0.979 1	0.606 7	0.492 1	0.792 4	0.934 3	0.841 2	0.819 5	0.716 8	0.947 10	0.906 1	0.822 1

PTv3 ScanNet	0.794 2	0.941 3	0.813 20	0.851 9	0.782 6	0.890 3	0.597 1	0.916 5	0.696 9	0.713 5	0.979 1	0.635 2	0.384 3	0.793 3	0.907 10	0.821 5	0.790 33	0.696 13	0.967 3	0.903 2	0.805 2
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
DITR ScanNet	0.793 3	0.811 39	0.852 2	0.889 1	0.774 9	0.907 1	0.592 2	0.927 3	0.719 1	0.718 3	0.961 17	0.652 1	0.348 12	0.817 1	0.927 5	0.795 9	0.824 2	0.749 1	0.948 9	0.887 7	0.771 11

PonderV2	0.785 4	0.978 1	0.800 29	0.833 26	0.788 4	0.853 19	0.545 19	0.910 8	0.713 2	0.705 6	0.979 1	0.596 9	0.390 2	0.769 15	0.832 44	0.821 5	0.792 32	0.730 2	0.975 1	0.897 5	0.785 6
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
Mix3D	0.781 5	0.964 2	0.855 1	0.843 18	0.781 7	0.858 13	0.575 7	0.831 36	0.685 15	0.714 4	0.979 1	0.594 10	0.310 29	0.801 2	0.892 18	0.841 2	0.819 5	0.723 5	0.940 15	0.887 7	0.725 27
Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann: Mix3D: Out-of-Context Data Augmentation for 3D Scenes. 3DV 2021 (Oral)
Swin3D	0.779 6	0.861 21	0.818 15	0.836 23	0.790 3	0.875 5	0.576 6	0.905 9	0.704 6	0.739 1	0.969 11	0.611 3	0.349 11	0.756 25	0.958 1	0.702 48	0.805 16	0.708 9	0.916 35	0.898 4	0.801 3

TTT-KD	0.773 7	0.646 94	0.818 15	0.809 38	0.774 9	0.878 4	0.581 3	0.943 1	0.687 13	0.704 7	0.978 5	0.607 6	0.336 18	0.775 11	0.912 8	0.838 4	0.823 3	0.694 14	0.967 3	0.899 3	0.794 5
Lisa Weijler, Muhammad Jehanzeb Mirza, Leon Sick, Can Ekkazan, Pedro Hermosilla: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models.
ResLFE_HDS	0.772 8	0.939 4	0.824 7	0.854 7	0.771 11	0.840 33	0.564 11	0.900 11	0.686 14	0.677 14	0.961 17	0.537 34	0.348 12	0.769 15	0.903 12	0.785 13	0.815 8	0.676 25	0.939 16	0.880 13	0.772 10

PPT-SpUNet-Joint	0.766 9	0.932 5	0.794 35	0.829 28	0.751 25	0.854 17	0.540 23	0.903 10	0.630 37	0.672 17	0.963 15	0.565 24	0.357 9	0.788 5	0.900 14	0.737 28	0.802 17	0.685 19	0.950 7	0.887 7	0.780 7
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer	0.766 9	0.925 7	0.808 25	0.849 11	0.786 5	0.846 29	0.566 10	0.876 18	0.690 11	0.674 16	0.960 19	0.576 20	0.226 70	0.753 27	0.904 11	0.777 15	0.815 8	0.722 6	0.923 30	0.877 16	0.776 9
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
CU-Hybrid Net	0.764 11	0.924 8	0.819 13	0.840 20	0.757 20	0.853 19	0.580 4	0.848 29	0.709 4	0.643 27	0.958 23	0.587 15	0.295 36	0.753 27	0.884 22	0.758 22	0.815 8	0.725 4	0.927 26	0.867 25	0.743 18

OccuSeg+Semantic	0.764 11	0.758 60	0.796 33	0.839 21	0.746 28	0.907 1	0.562 12	0.850 28	0.680 17	0.672 17	0.978 5	0.610 4	0.335 20	0.777 9	0.819 48	0.847 1	0.830 1	0.691 16	0.972 2	0.885 10	0.727 25

O-CNN	0.762 13	0.924 8	0.823 8	0.844 17	0.770 12	0.852 21	0.577 5	0.847 31	0.711 3	0.640 31	0.958 23	0.592 11	0.217 76	0.762 20	0.888 19	0.758 22	0.813 12	0.726 3	0.932 24	0.868 24	0.744 17
Peng-Shuai Wang, Yang Liu, Yu-Xiao Guo, Chun-Yu Sun, Xin Tong: O-CNN: Octree-based Convolutional Neural Networks for 3D Shape Analysis. SIGGRAPH 2017
DiffSegNet	0.758 14	0.725 77	0.789 40	0.843 18	0.762 16	0.856 14	0.562 12	0.920 4	0.657 27	0.658 21	0.958 23	0.589 13	0.337 17	0.782 6	0.879 23	0.787 11	0.779 38	0.678 21	0.926 28	0.880 13	0.799 4

DTC	0.757 15	0.843 27	0.820 11	0.847 14	0.791 2	0.862 11	0.511 36	0.870 20	0.707 5	0.652 23	0.954 38	0.604 8	0.279 47	0.760 21	0.942 2	0.734 29	0.766 47	0.701 12	0.884 57	0.874 22	0.736 19

OA-CNN-L_ScanNet20	0.756 16	0.783 46	0.826 6	0.858 5	0.776 8	0.837 36	0.548 18	0.896 14	0.649 29	0.675 15	0.962 16	0.586 16	0.335 20	0.771 14	0.802 52	0.770 18	0.787 35	0.691 16	0.936 19	0.880 13	0.761 13

PNE	0.755 17	0.786 44	0.835 5	0.834 25	0.758 18	0.849 24	0.570 9	0.836 35	0.648 30	0.668 19	0.978 5	0.581 19	0.367 7	0.683 38	0.856 32	0.804 7	0.801 21	0.678 21	0.961 5	0.889 6	0.716 32
P. Hermosilla: Point Neighborhood Embeddings.
ConDaFormer	0.755 17	0.927 6	0.822 9	0.836 23	0.801 1	0.849 24	0.516 33	0.864 25	0.651 28	0.680 13	0.958 23	0.584 18	0.282 44	0.759 23	0.855 34	0.728 31	0.802 17	0.678 21	0.880 62	0.873 23	0.756 15
Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Guisong Xia, Dacheng Tao: ConDaFormer : Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding. Neurips, 2023
PointTransformerV2	0.752 19	0.742 68	0.809 24	0.872 2	0.758 18	0.860 12	0.552 16	0.891 16	0.610 44	0.687 8	0.960 19	0.559 28	0.304 32	0.766 18	0.926 6	0.767 19	0.797 25	0.644 36	0.942 13	0.876 19	0.722 29
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao: Point Transformer V2: Grouped Vector Attention and Partition-based Pooling. NeurIPS 2022
DMF-Net	0.752 19	0.906 13	0.793 37	0.802 44	0.689 43	0.825 49	0.556 14	0.867 21	0.681 16	0.602 47	0.960 19	0.555 30	0.365 8	0.779 8	0.859 29	0.747 25	0.795 29	0.717 7	0.917 34	0.856 33	0.764 12
C.Yang, Y.Yan, W.Zhao, J.Ye, X.Yang, A.Hussain, B.Dong, K.Huang: Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic Segmentation. ICONIP 2023
BPNet	0.749 21	0.909 11	0.818 15	0.811 36	0.752 23	0.839 35	0.485 50	0.842 32	0.673 19	0.644 26	0.957 28	0.528 40	0.305 31	0.773 12	0.859 29	0.788 10	0.818 7	0.693 15	0.916 35	0.856 33	0.723 28
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
PointConvFormer	0.749 21	0.793 42	0.790 38	0.807 40	0.750 27	0.856 14	0.524 29	0.881 17	0.588 56	0.642 30	0.977 9	0.591 12	0.274 50	0.781 7	0.929 4	0.804 7	0.796 26	0.642 37	0.947 10	0.885 10	0.715 33
Wenxuan Wu, Qi Shan, Li Fuxin: PointConvFormer: Revenge of the Point-based Convolution.
MSP	0.748 23	0.623 97	0.804 27	0.859 4	0.745 29	0.824 51	0.501 40	0.912 7	0.690 11	0.685 10	0.956 29	0.567 23	0.320 26	0.768 17	0.918 7	0.720 36	0.802 17	0.676 25	0.921 32	0.881 12	0.779 8

StratifiedFormer	0.747 24	0.901 14	0.803 28	0.845 16	0.757 20	0.846 29	0.512 35	0.825 39	0.696 9	0.645 25	0.956 29	0.576 20	0.262 61	0.744 32	0.861 28	0.742 26	0.770 45	0.705 10	0.899 47	0.860 30	0.734 20
Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia: Stratified Transformer for 3D Point Cloud Segmentation. CVPR 2022
VMNet	0.746 25	0.870 19	0.838 3	0.858 5	0.729 34	0.850 23	0.501 40	0.874 19	0.587 57	0.658 21	0.956 29	0.564 25	0.299 34	0.765 19	0.900 14	0.716 39	0.812 13	0.631 42	0.939 16	0.858 31	0.709 34
Zeyu HU, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai: VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation. ICCV 2021 (Oral)
Virtual MVFusion	0.746 25	0.771 54	0.819 13	0.848 13	0.702 40	0.865 10	0.397 88	0.899 12	0.699 7	0.664 20	0.948 58	0.588 14	0.330 22	0.746 31	0.851 38	0.764 20	0.796 26	0.704 11	0.935 20	0.866 26	0.728 23
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
DiffSeg3D2	0.745 27	0.725 77	0.814 19	0.837 22	0.751 25	0.831 43	0.514 34	0.896 14	0.674 18	0.684 11	0.960 19	0.564 25	0.303 33	0.773 12	0.820 47	0.713 42	0.798 24	0.690 18	0.923 30	0.875 20	0.757 14

Retro-FPN	0.744 28	0.842 28	0.800 29	0.767 58	0.740 30	0.836 38	0.541 21	0.914 6	0.672 20	0.626 35	0.958 23	0.552 31	0.272 52	0.777 9	0.886 21	0.696 49	0.801 21	0.674 28	0.941 14	0.858 31	0.717 30
Peng Xiang, Xin Wen, Yu-Shen Liu, Hui Zhang, Yi Fang, Zhizhong Han: Retrospective Feature Pyramid Network for Point Cloud Semantic Segmentation. ICCV 2023
EQ-Net	0.743 29	0.620 98	0.799 32	0.849 11	0.730 33	0.822 53	0.493 47	0.897 13	0.664 21	0.681 12	0.955 32	0.562 27	0.378 4	0.760 21	0.903 12	0.738 27	0.801 21	0.673 29	0.907 39	0.877 16	0.745 16
Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya JIa: A Unified Query-based Paradigm for Point Cloud Understanding. CVPR 2022
LRPNet	0.742 30	0.816 36	0.806 26	0.807 40	0.752 23	0.828 47	0.575 7	0.839 34	0.699 7	0.637 32	0.954 38	0.520 43	0.320 26	0.755 26	0.834 42	0.760 21	0.772 42	0.676 25	0.915 37	0.862 28	0.717 30

SAT	0.742 30	0.860 22	0.765 52	0.819 31	0.769 14	0.848 26	0.533 25	0.829 37	0.663 22	0.631 34	0.955 32	0.586 16	0.274 50	0.753 27	0.896 16	0.729 30	0.760 53	0.666 31	0.921 32	0.855 35	0.733 21

LargeKernel3D	0.739 32	0.909 11	0.820 11	0.806 42	0.740 30	0.852 21	0.545 19	0.826 38	0.594 55	0.643 27	0.955 32	0.541 33	0.263 60	0.723 36	0.858 31	0.775 17	0.767 46	0.678 21	0.933 22	0.848 40	0.694 39
Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia: LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs. CVPR 2023
MinkowskiNet	0.736 33	0.859 23	0.818 15	0.832 27	0.709 38	0.840 33	0.521 31	0.853 27	0.660 24	0.643 27	0.951 48	0.544 32	0.286 42	0.731 34	0.893 17	0.675 58	0.772 42	0.683 20	0.874 69	0.852 38	0.727 25
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
RPN	0.736 33	0.776 50	0.790 38	0.851 9	0.754 22	0.854 17	0.491 49	0.866 23	0.596 54	0.686 9	0.955 32	0.536 35	0.342 15	0.624 53	0.869 25	0.787 11	0.802 17	0.628 43	0.927 26	0.875 20	0.704 36

IPCA	0.731 35	0.890 15	0.837 4	0.864 3	0.726 35	0.873 6	0.530 28	0.824 40	0.489 90	0.647 24	0.978 5	0.609 5	0.336 18	0.624 53	0.733 61	0.758 22	0.776 40	0.570 68	0.949 8	0.877 16	0.728 23

PointTransformer++	0.725 36	0.727 76	0.811 23	0.819 31	0.765 15	0.841 32	0.502 39	0.814 45	0.621 40	0.623 37	0.955 32	0.556 29	0.284 43	0.620 55	0.866 26	0.781 14	0.757 57	0.648 34	0.932 24	0.862 28	0.709 34

SparseConvNet	0.725 36	0.647 93	0.821 10	0.846 15	0.721 36	0.869 7	0.533 25	0.754 61	0.603 50	0.614 39	0.955 32	0.572 22	0.325 24	0.710 37	0.870 24	0.724 34	0.823 3	0.628 43	0.934 21	0.865 27	0.683 42

MatchingNet	0.724 38	0.812 38	0.812 21	0.810 37	0.735 32	0.834 40	0.495 46	0.860 26	0.572 64	0.602 47	0.954 38	0.512 45	0.280 46	0.757 24	0.845 40	0.725 33	0.780 37	0.606 53	0.937 18	0.851 39	0.700 38

INS-Conv-semantic	0.717 39	0.751 63	0.759 55	0.812 35	0.704 39	0.868 8	0.537 24	0.842 32	0.609 46	0.608 43	0.953 42	0.534 37	0.293 37	0.616 56	0.864 27	0.719 38	0.793 30	0.640 38	0.933 22	0.845 44	0.663 48

PointMetaBase	0.714 40	0.835 29	0.785 41	0.821 29	0.684 45	0.846 29	0.531 27	0.865 24	0.614 41	0.596 51	0.953 42	0.500 48	0.246 66	0.674 39	0.888 19	0.692 50	0.764 49	0.624 45	0.849 84	0.844 45	0.675 44

contrastBoundary	0.705 41	0.769 57	0.775 46	0.809 38	0.687 44	0.820 56	0.439 76	0.812 46	0.661 23	0.591 53	0.945 66	0.515 44	0.171 94	0.633 50	0.856 32	0.720 36	0.796 26	0.668 30	0.889 54	0.847 41	0.689 40
Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao: Contrastive Boundary Learning for Point Cloud Segmentation. CVPR2022
ClickSeg_Semantic	0.703 42	0.774 52	0.800 29	0.793 49	0.760 17	0.847 28	0.471 54	0.802 49	0.463 97	0.634 33	0.968 13	0.491 51	0.271 54	0.726 35	0.910 9	0.706 44	0.815 8	0.551 80	0.878 63	0.833 46	0.570 80

RFCR	0.702 43	0.889 16	0.745 66	0.813 34	0.672 48	0.818 60	0.493 47	0.815 44	0.623 38	0.610 41	0.947 60	0.470 60	0.249 65	0.594 59	0.848 39	0.705 45	0.779 38	0.646 35	0.892 52	0.823 52	0.611 63
Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma: Omni-Supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning. CVPR2021
One Thing One Click	0.701 44	0.825 33	0.796 33	0.723 65	0.716 37	0.832 42	0.433 78	0.816 42	0.634 35	0.609 42	0.969 11	0.418 86	0.344 14	0.559 71	0.833 43	0.715 40	0.808 15	0.560 74	0.902 44	0.847 41	0.680 43

JSENet	0.699 45	0.881 18	0.762 53	0.821 29	0.667 49	0.800 72	0.522 30	0.792 52	0.613 42	0.607 44	0.935 86	0.492 50	0.205 81	0.576 64	0.853 36	0.691 52	0.758 55	0.652 33	0.872 72	0.828 49	0.649 52
Zeyu HU, Mingmin Zhen, Xuyang BAI, Hongbo Fu, Chiew-lan Tai: JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D Point Clouds. ECCV 2020
One-Thing-One-Click	0.693 46	0.743 67	0.794 35	0.655 88	0.684 45	0.822 53	0.497 45	0.719 71	0.622 39	0.617 38	0.977 9	0.447 73	0.339 16	0.750 30	0.664 77	0.703 47	0.790 33	0.596 58	0.946 12	0.855 35	0.647 53
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
PicassoNet-II	0.692 47	0.732 72	0.772 47	0.786 50	0.677 47	0.866 9	0.517 32	0.848 29	0.509 83	0.626 35	0.952 46	0.536 35	0.225 72	0.545 77	0.704 68	0.689 55	0.810 14	0.564 73	0.903 43	0.854 37	0.729 22
Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian: Geometric feature learning for 3D meshes.
Feature_GeometricNet	0.690 48	0.884 17	0.754 59	0.795 47	0.647 56	0.818 60	0.422 80	0.802 49	0.612 43	0.604 45	0.945 66	0.462 63	0.189 89	0.563 70	0.853 36	0.726 32	0.765 48	0.632 41	0.904 41	0.821 55	0.606 67
Kangcheng Liu, Ben M. Chen: https://arxiv.org/abs/2012.09439. arXiv Preprint
FusionNet	0.688 49	0.704 83	0.741 70	0.754 62	0.656 51	0.829 45	0.501 40	0.741 66	0.609 46	0.548 61	0.950 52	0.522 42	0.371 5	0.633 50	0.756 56	0.715 40	0.771 44	0.623 46	0.861 80	0.814 58	0.658 49
Feihu Zhang, Jin Fang, Benjamin Wah, Philip Torr: Deep FusionNet for Point Cloud Semantic Segmentation. ECCV 2020
Feature-Geometry Net	0.685 50	0.866 20	0.748 63	0.819 31	0.645 58	0.794 75	0.450 66	0.802 49	0.587 57	0.604 45	0.945 66	0.464 62	0.201 84	0.554 73	0.840 41	0.723 35	0.732 67	0.602 56	0.907 39	0.822 54	0.603 70

KP-FCNN	0.684 51	0.847 26	0.758 57	0.784 52	0.647 56	0.814 63	0.473 53	0.772 55	0.605 48	0.594 52	0.935 86	0.450 71	0.181 92	0.587 60	0.805 51	0.690 53	0.785 36	0.614 49	0.882 59	0.819 56	0.632 59
H. Thomas, C. Qi, J. Deschaud, B. Marcotegui, F. Goulette, L. Guibas.: KPConv: Flexible and Deformable Convolution for Point Clouds. ICCV 2019
VACNN++	0.684 51	0.728 75	0.757 58	0.776 55	0.690 41	0.804 70	0.464 59	0.816 42	0.577 63	0.587 54	0.945 66	0.508 47	0.276 49	0.671 40	0.710 66	0.663 63	0.750 61	0.589 63	0.881 60	0.832 48	0.653 51

DGNet	0.684 51	0.712 82	0.784 42	0.782 54	0.658 50	0.835 39	0.499 44	0.823 41	0.641 32	0.597 50	0.950 52	0.487 53	0.281 45	0.575 65	0.619 81	0.647 71	0.764 49	0.620 48	0.871 75	0.846 43	0.688 41

PointContrast_LA_SEM	0.683 54	0.757 61	0.784 42	0.786 50	0.639 60	0.824 51	0.408 83	0.775 54	0.604 49	0.541 63	0.934 90	0.532 38	0.269 56	0.552 74	0.777 54	0.645 74	0.793 30	0.640 38	0.913 38	0.824 51	0.671 45

Superpoint Network	0.683 54	0.851 25	0.728 74	0.800 46	0.653 53	0.806 68	0.468 56	0.804 47	0.572 64	0.602 47	0.946 63	0.453 70	0.239 69	0.519 82	0.822 45	0.689 55	0.762 52	0.595 60	0.895 50	0.827 50	0.630 60

VI-PointConv	0.676 56	0.770 56	0.754 59	0.783 53	0.621 64	0.814 63	0.552 16	0.758 59	0.571 66	0.557 59	0.954 38	0.529 39	0.268 58	0.530 80	0.682 72	0.675 58	0.719 70	0.603 55	0.888 55	0.833 46	0.665 47
Xingyi Li, Wenxuan Wu, Xiaoli Z. Fern, Li Fuxin: The Devils in the Point Clouds: Studying the Robustness of Point Cloud Convolutions.
ROSMRF3D	0.673 57	0.789 43	0.748 63	0.763 60	0.635 62	0.814 63	0.407 85	0.747 63	0.581 61	0.573 56	0.950 52	0.484 54	0.271 54	0.607 57	0.754 57	0.649 68	0.774 41	0.596 58	0.883 58	0.823 52	0.606 67

SALANet	0.670 58	0.816 36	0.770 50	0.768 57	0.652 54	0.807 67	0.451 63	0.747 63	0.659 26	0.545 62	0.924 96	0.473 59	0.149 104	0.571 67	0.811 50	0.635 77	0.746 62	0.623 46	0.892 52	0.794 71	0.570 80

O3DSeg	0.668 59	0.822 34	0.771 49	0.496 108	0.651 55	0.833 41	0.541 21	0.761 58	0.555 72	0.611 40	0.966 14	0.489 52	0.370 6	0.388 102	0.580 84	0.776 16	0.751 59	0.570 68	0.956 6	0.817 57	0.646 54

PointASNL	0.666 60	0.703 84	0.781 44	0.751 64	0.655 52	0.830 44	0.471 54	0.769 56	0.474 93	0.537 65	0.951 48	0.475 58	0.279 47	0.635 48	0.698 71	0.675 58	0.751 59	0.553 79	0.816 91	0.806 62	0.703 37
Xu Yan, Chaoda Zheng, Zhen Li, Sheng Wang, Shuguang Cui: PointASNL: Robust Point Clouds Processing using Nonlocal Neural Networks with Adaptive Sampling. CVPR 2020
PointConv	0.666 60	0.781 47	0.759 55	0.699 73	0.644 59	0.822 53	0.475 52	0.779 53	0.564 69	0.504 79	0.953 42	0.428 80	0.203 83	0.586 62	0.754 57	0.661 64	0.753 58	0.588 64	0.902 44	0.813 60	0.642 55
Wenxuan Wu, Zhongang Qi, Li Fuxin: PointConv: Deep Convolutional Networks on 3D Point Clouds. CVPR 2019
PPCNN++	0.663 62	0.746 65	0.708 77	0.722 66	0.638 61	0.820 56	0.451 63	0.566 99	0.599 52	0.541 63	0.950 52	0.510 46	0.313 28	0.648 45	0.819 48	0.616 82	0.682 85	0.590 62	0.869 76	0.810 61	0.656 50
Pyunghwan Ahn, Juyoung Yang, Eojindl Yi, Chanho Lee, Junmo Kim: Projection-based Point Convolution for Efficient Point Cloud Segmentation. IEEE Access
DCM-Net	0.658 63	0.778 48	0.702 80	0.806 42	0.619 65	0.813 66	0.468 56	0.693 79	0.494 86	0.524 71	0.941 78	0.449 72	0.298 35	0.510 84	0.821 46	0.675 58	0.727 69	0.568 71	0.826 89	0.803 65	0.637 57
Jonas Schult, Francis Engelmann, Theodora Kontogianni, Bastian Leibe: DualConvMesh-Net: Joint Geodesic and Euclidean Convolutions on 3D Meshes. CVPR 2020 [Oral]
MVF-GNN	0.658 63	0.558 105	0.751 61	0.655 88	0.690 41	0.722 97	0.453 62	0.867 21	0.579 62	0.576 55	0.893 108	0.523 41	0.293 37	0.733 33	0.571 86	0.692 50	0.659 92	0.606 53	0.875 66	0.804 64	0.668 46

HPGCNN	0.656 65	0.698 86	0.743 68	0.650 90	0.564 82	0.820 56	0.505 38	0.758 59	0.631 36	0.479 83	0.945 66	0.480 56	0.226 70	0.572 66	0.774 55	0.690 53	0.735 65	0.614 49	0.853 83	0.776 86	0.597 73
Jisheng Dang, Qingyong Hu, Yulan Guo, Jun Yang: HPGCNN.
SAFNet-seg	0.654 66	0.752 62	0.734 72	0.664 86	0.583 77	0.815 62	0.399 87	0.754 61	0.639 33	0.535 67	0.942 76	0.470 60	0.309 30	0.665 41	0.539 88	0.650 67	0.708 75	0.635 40	0.857 82	0.793 73	0.642 55
Linqing Zhao, Jiwen Lu, Jie Zhou: Similarity-Aware Fusion Network for 3D Semantic Segmentation. IROS 2021
RandLA-Net	0.645 67	0.778 48	0.731 73	0.699 73	0.577 78	0.829 45	0.446 68	0.736 67	0.477 92	0.523 73	0.945 66	0.454 67	0.269 56	0.484 92	0.749 60	0.618 80	0.738 63	0.599 57	0.827 88	0.792 76	0.621 62

PointConv-SFPN	0.641 68	0.776 50	0.703 79	0.721 67	0.557 85	0.826 48	0.451 63	0.672 84	0.563 70	0.483 82	0.943 75	0.425 83	0.162 99	0.644 46	0.726 62	0.659 65	0.709 74	0.572 67	0.875 66	0.786 81	0.559 86

MVPNet	0.641 68	0.831 30	0.715 75	0.671 83	0.590 73	0.781 81	0.394 89	0.679 81	0.642 31	0.553 60	0.937 83	0.462 63	0.256 62	0.649 44	0.406 102	0.626 78	0.691 82	0.666 31	0.877 64	0.792 76	0.608 66
Maximilian Jaritz, Jiayuan Gu, Hao Su: Multi-view PointNet for 3D Scene Understanding. GMDL Workshop, ICCV 2019
PointMRNet	0.640 70	0.717 81	0.701 81	0.692 76	0.576 79	0.801 71	0.467 58	0.716 72	0.563 70	0.459 89	0.953 42	0.429 79	0.169 96	0.581 63	0.854 35	0.605 83	0.710 72	0.550 81	0.894 51	0.793 73	0.575 78

FPConv	0.639 71	0.785 45	0.760 54	0.713 71	0.603 68	0.798 73	0.392 90	0.534 104	0.603 50	0.524 71	0.948 58	0.457 65	0.250 64	0.538 78	0.723 64	0.598 87	0.696 80	0.614 49	0.872 72	0.799 66	0.567 83
Yiqun Lin, Zizheng Yan, Haibin Huang, Dong Du, Ligang Liu, Shuguang Cui, Xiaoguang Han: FPConv: Learning Local Flattening for Point Convolution. CVPR 2020
PD-Net	0.638 72	0.797 41	0.769 51	0.641 96	0.590 73	0.820 56	0.461 60	0.537 103	0.637 34	0.536 66	0.947 60	0.388 93	0.206 80	0.656 42	0.668 75	0.647 71	0.732 67	0.585 65	0.868 77	0.793 73	0.473 106

PointSPNet	0.637 73	0.734 71	0.692 88	0.714 70	0.576 79	0.797 74	0.446 68	0.743 65	0.598 53	0.437 94	0.942 76	0.403 89	0.150 103	0.626 52	0.800 53	0.649 68	0.697 79	0.557 77	0.846 85	0.777 85	0.563 84

SConv	0.636 74	0.830 31	0.697 84	0.752 63	0.572 81	0.780 83	0.445 70	0.716 72	0.529 76	0.530 68	0.951 48	0.446 74	0.170 95	0.507 87	0.666 76	0.636 76	0.682 85	0.541 87	0.886 56	0.799 66	0.594 74

Supervoxel-CNN	0.635 75	0.656 91	0.711 76	0.719 68	0.613 66	0.757 92	0.444 73	0.765 57	0.534 75	0.566 57	0.928 94	0.478 57	0.272 52	0.636 47	0.531 90	0.664 62	0.645 96	0.508 94	0.864 79	0.792 76	0.611 63

joint point-based	0.634 76	0.614 99	0.778 45	0.667 85	0.633 63	0.825 49	0.420 81	0.804 47	0.467 95	0.561 58	0.951 48	0.494 49	0.291 39	0.566 68	0.458 97	0.579 93	0.764 49	0.559 76	0.838 86	0.814 58	0.598 72
Hung-Yueh Chiang, Yen-Liang Lin, Yueh-Cheng Liu, Winston H. Hsu: A Unified Point-Based Framework for 3D Segmentation. 3DV 2019
PointMTL	0.632 77	0.731 73	0.688 91	0.675 80	0.591 72	0.784 80	0.444 73	0.565 100	0.610 44	0.492 80	0.949 56	0.456 66	0.254 63	0.587 60	0.706 67	0.599 86	0.665 91	0.612 52	0.868 77	0.791 79	0.579 77

3DSM_DMMF	0.631 78	0.626 96	0.745 66	0.801 45	0.607 67	0.751 93	0.506 37	0.729 70	0.565 68	0.491 81	0.866 111	0.434 75	0.197 87	0.595 58	0.630 80	0.709 43	0.705 77	0.560 74	0.875 66	0.740 96	0.491 101

PointNet2-SFPN	0.631 78	0.771 54	0.692 88	0.672 81	0.524 90	0.837 36	0.440 75	0.706 77	0.538 74	0.446 91	0.944 72	0.421 85	0.219 75	0.552 74	0.751 59	0.591 89	0.737 64	0.543 86	0.901 46	0.768 88	0.557 87

APCF-Net	0.631 78	0.742 68	0.687 93	0.672 81	0.557 85	0.792 78	0.408 83	0.665 85	0.545 73	0.508 76	0.952 46	0.428 80	0.186 90	0.634 49	0.702 69	0.620 79	0.706 76	0.555 78	0.873 70	0.798 68	0.581 76
Haojia, Lin: Adaptive Pyramid Context Fusion for Point Cloud Perception. GRSL
FusionAwareConv	0.630 81	0.604 101	0.741 70	0.766 59	0.590 73	0.747 94	0.501 40	0.734 68	0.503 85	0.527 69	0.919 100	0.454 67	0.323 25	0.550 76	0.420 101	0.678 57	0.688 83	0.544 84	0.896 49	0.795 70	0.627 61
Jiazhao Zhang, Chenyang Zhu, Lintao Zheng, Kai Xu: Fusion-Aware Point Convolution for Online Semantic 3D Scene Segmentation. CVPR 2020
DenSeR	0.628 82	0.800 40	0.625 104	0.719 68	0.545 87	0.806 68	0.445 70	0.597 93	0.448 100	0.519 74	0.938 82	0.481 55	0.328 23	0.489 91	0.499 95	0.657 66	0.759 54	0.592 61	0.881 60	0.797 69	0.634 58

SegGroup_sem	0.627 83	0.818 35	0.747 65	0.701 72	0.602 69	0.764 89	0.385 94	0.629 90	0.490 88	0.508 76	0.931 93	0.409 88	0.201 84	0.564 69	0.725 63	0.618 80	0.692 81	0.539 88	0.873 70	0.794 71	0.548 90
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
SIConv	0.625 84	0.830 31	0.694 86	0.757 61	0.563 83	0.772 87	0.448 67	0.647 88	0.520 79	0.509 75	0.949 56	0.431 78	0.191 88	0.496 89	0.614 82	0.647 71	0.672 89	0.535 90	0.876 65	0.783 82	0.571 79

dtc_net	0.625 84	0.703 84	0.751 61	0.794 48	0.535 88	0.848 26	0.480 51	0.676 83	0.528 77	0.469 86	0.944 72	0.454 67	0.004 117	0.464 94	0.636 79	0.704 46	0.758 55	0.548 83	0.924 29	0.787 80	0.492 100

HPEIN	0.618 86	0.729 74	0.668 94	0.647 92	0.597 71	0.766 88	0.414 82	0.680 80	0.520 79	0.525 70	0.946 63	0.432 76	0.215 77	0.493 90	0.599 83	0.638 75	0.617 101	0.570 68	0.897 48	0.806 62	0.605 69
Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi-Wing Fu, Jiaya Jia: Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation. ICCV 2019
SPH3D-GCN	0.610 87	0.858 24	0.772 47	0.489 109	0.532 89	0.792 78	0.404 86	0.643 89	0.570 67	0.507 78	0.935 86	0.414 87	0.046 114	0.510 84	0.702 69	0.602 85	0.705 77	0.549 82	0.859 81	0.773 87	0.534 93
Huan Lei, Naveed Akhtar, and Ajmal Mian: Spherical Kernel for Efficient Graph Convolution on 3D Point Clouds. TPAMI 2020
AttAN	0.609 88	0.760 59	0.667 95	0.649 91	0.521 91	0.793 76	0.457 61	0.648 87	0.528 77	0.434 96	0.947 60	0.401 90	0.153 102	0.454 95	0.721 65	0.648 70	0.717 71	0.536 89	0.904 41	0.765 89	0.485 102
Gege Zhang, Qinghua Ma, Licheng Jiao, Fang Liu and Qigong Sun: AttAN: Attention Adversarial Networks for 3D Point Cloud Semantic Segmentation. IJCAI2020
wsss-transformer	0.600 89	0.634 95	0.743 68	0.697 75	0.601 70	0.781 81	0.437 77	0.585 96	0.493 87	0.446 91	0.933 91	0.394 91	0.011 116	0.654 43	0.661 78	0.603 84	0.733 66	0.526 91	0.832 87	0.761 91	0.480 103

LAP-D	0.594 90	0.720 79	0.692 88	0.637 97	0.456 101	0.773 86	0.391 92	0.730 69	0.587 57	0.445 93	0.940 80	0.381 94	0.288 40	0.434 98	0.453 99	0.591 89	0.649 94	0.581 66	0.777 95	0.749 95	0.610 65

DPC	0.592 91	0.720 79	0.700 82	0.602 101	0.480 97	0.762 91	0.380 95	0.713 75	0.585 60	0.437 94	0.940 80	0.369 96	0.288 40	0.434 98	0.509 94	0.590 91	0.639 99	0.567 72	0.772 97	0.755 93	0.592 75
Francis Engelmann, Theodora Kontogianni, Bastian Leibe: Dilated Point Convolutions: On the Receptive Field Size of Point Convolutions on 3D Point Clouds. ICRA 2020
CCRFNet	0.589 92	0.766 58	0.659 99	0.683 78	0.470 100	0.740 96	0.387 93	0.620 92	0.490 88	0.476 84	0.922 98	0.355 99	0.245 67	0.511 83	0.511 93	0.571 94	0.643 97	0.493 98	0.872 72	0.762 90	0.600 71

ROSMRF	0.580 93	0.772 53	0.707 78	0.681 79	0.563 83	0.764 89	0.362 97	0.515 105	0.465 96	0.465 88	0.936 85	0.427 82	0.207 79	0.438 96	0.577 85	0.536 97	0.675 88	0.486 99	0.723 103	0.779 83	0.524 96

SD-DETR	0.576 94	0.746 65	0.609 108	0.445 113	0.517 92	0.643 108	0.366 96	0.714 74	0.456 98	0.468 87	0.870 110	0.432 76	0.264 59	0.558 72	0.674 73	0.586 92	0.688 83	0.482 100	0.739 101	0.733 98	0.537 92

SQN_0.1%	0.569 95	0.676 88	0.696 85	0.657 87	0.497 93	0.779 84	0.424 79	0.548 101	0.515 81	0.376 101	0.902 107	0.422 84	0.357 9	0.379 103	0.456 98	0.596 88	0.659 92	0.544 84	0.685 106	0.665 109	0.556 88

TextureNet	0.566 96	0.672 90	0.664 96	0.671 83	0.494 95	0.719 98	0.445 70	0.678 82	0.411 106	0.396 99	0.935 86	0.356 98	0.225 72	0.412 100	0.535 89	0.565 95	0.636 100	0.464 102	0.794 94	0.680 106	0.568 82
Jingwei Huang, Haotian Zhang, Li Yi, Thomas Funkerhouser, Matthias Niessner, Leonidas Guibas: TextureNet: Consistent Local Parametrizations for Learning from High-Resolution Signals on Meshes. CVPR
DVVNet	0.562 97	0.648 92	0.700 82	0.770 56	0.586 76	0.687 102	0.333 101	0.650 86	0.514 82	0.475 85	0.906 104	0.359 97	0.223 74	0.340 105	0.442 100	0.422 108	0.668 90	0.501 95	0.708 104	0.779 83	0.534 93

Pointnet++ & Feature	0.557 98	0.735 70	0.661 98	0.686 77	0.491 96	0.744 95	0.392 90	0.539 102	0.451 99	0.375 102	0.946 63	0.376 95	0.205 81	0.403 101	0.356 105	0.553 96	0.643 97	0.497 96	0.824 90	0.756 92	0.515 97

GMLPs	0.538 99	0.495 110	0.693 87	0.647 92	0.471 99	0.793 76	0.300 104	0.477 106	0.505 84	0.358 104	0.903 106	0.327 102	0.081 111	0.472 93	0.529 91	0.448 106	0.710 72	0.509 92	0.746 99	0.737 97	0.554 89

PanopticFusion-label	0.529 100	0.491 111	0.688 91	0.604 100	0.386 106	0.632 109	0.225 114	0.705 78	0.434 103	0.293 110	0.815 112	0.348 100	0.241 68	0.499 88	0.669 74	0.507 99	0.649 94	0.442 108	0.796 93	0.602 113	0.561 85
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
subcloud_weak	0.516 101	0.676 88	0.591 111	0.609 98	0.442 102	0.774 85	0.335 100	0.597 93	0.422 105	0.357 105	0.932 92	0.341 101	0.094 110	0.298 107	0.528 92	0.473 104	0.676 87	0.495 97	0.602 112	0.721 101	0.349 113

Online SegFusion	0.515 102	0.607 100	0.644 102	0.579 103	0.434 103	0.630 110	0.353 98	0.628 91	0.440 101	0.410 97	0.762 116	0.307 104	0.167 97	0.520 81	0.403 103	0.516 98	0.565 104	0.447 106	0.678 107	0.701 103	0.514 98
Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstroem, Cristian Sminchisescu, Luc van Gool: A Real-Time Learning Framework for Joint 3D Reconstruction and Semantic Segmentation. Robotics and Automation Letters Submission
3DMV, FTSDF	0.501 103	0.558 105	0.608 109	0.424 115	0.478 98	0.690 101	0.246 110	0.586 95	0.468 94	0.450 90	0.911 102	0.394 91	0.160 100	0.438 96	0.212 112	0.432 107	0.541 110	0.475 101	0.742 100	0.727 99	0.477 104

PCNN	0.498 104	0.559 104	0.644 102	0.560 105	0.420 105	0.711 100	0.229 112	0.414 107	0.436 102	0.352 106	0.941 78	0.324 103	0.155 101	0.238 112	0.387 104	0.493 100	0.529 111	0.509 92	0.813 92	0.751 94	0.504 99

Weakly-Openseg v3	0.489 105	0.749 64	0.664 96	0.646 94	0.496 94	0.559 114	0.122 117	0.577 97	0.257 117	0.364 103	0.805 113	0.198 115	0.096 109	0.510 84	0.496 96	0.361 112	0.563 105	0.359 115	0.777 95	0.644 110	0.532 95

3DMV	0.484 106	0.484 112	0.538 113	0.643 95	0.424 104	0.606 113	0.310 102	0.574 98	0.433 104	0.378 100	0.796 114	0.301 105	0.214 78	0.537 79	0.208 113	0.472 105	0.507 114	0.413 111	0.693 105	0.602 113	0.539 91
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
PointCNN with RGB	0.458 107	0.577 103	0.611 107	0.356 117	0.321 114	0.715 99	0.299 106	0.376 111	0.328 113	0.319 108	0.944 72	0.285 107	0.164 98	0.216 115	0.229 110	0.484 102	0.545 109	0.456 104	0.755 98	0.709 102	0.475 105
Yangyan Li, Rui Bu, Mingchao Sun, Baoquan Chen: PointCNN. NeurIPS 2018
FCPN	0.447 108	0.679 87	0.604 110	0.578 104	0.380 107	0.682 103	0.291 107	0.106 117	0.483 91	0.258 115	0.920 99	0.258 111	0.025 115	0.231 114	0.325 106	0.480 103	0.560 107	0.463 103	0.725 102	0.666 108	0.231 117
Dario Rethage, Johanna Wald, Jürgen Sturm, Nassir Navab, Federico Tombari: Fully-Convolutional Point Networks for Large-Scale Point Clouds. ECCV 2018
DGCNN_reproduce	0.446 109	0.474 113	0.623 105	0.463 111	0.366 109	0.651 106	0.310 102	0.389 110	0.349 111	0.330 107	0.937 83	0.271 109	0.126 106	0.285 108	0.224 111	0.350 114	0.577 103	0.445 107	0.625 110	0.723 100	0.394 109
Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E. Sarma, Michael M. Bronstein, Justin M. Solomon: Dynamic Graph CNN for Learning on Point Clouds. TOG 2019
PNET2	0.442 110	0.548 107	0.548 112	0.597 102	0.363 110	0.628 111	0.300 104	0.292 112	0.374 108	0.307 109	0.881 109	0.268 110	0.186 90	0.238 112	0.204 114	0.407 109	0.506 115	0.449 105	0.667 108	0.620 112	0.462 107

SurfaceConvPF	0.442 110	0.505 109	0.622 106	0.380 116	0.342 112	0.654 105	0.227 113	0.397 109	0.367 109	0.276 112	0.924 96	0.240 112	0.198 86	0.359 104	0.262 108	0.366 110	0.581 102	0.435 109	0.640 109	0.668 107	0.398 108
Hao Pan, Shilin Liu, Yang Liu, Xin Tong: Convolutional Neural Networks on 3D Surfaces Using Parallel Frames.
Tangent Convolutions	0.438 112	0.437 115	0.646 101	0.474 110	0.369 108	0.645 107	0.353 98	0.258 114	0.282 115	0.279 111	0.918 101	0.298 106	0.147 105	0.283 109	0.294 107	0.487 101	0.562 106	0.427 110	0.619 111	0.633 111	0.352 112
Maxim Tatarchenko, Jaesik Park, Vladlen Koltun, Qian-Yi Zhou: Tangent convolutions for dense prediction in 3d. CVPR 2018
3DWSSS	0.425 113	0.525 108	0.647 100	0.522 106	0.324 113	0.488 117	0.077 118	0.712 76	0.353 110	0.401 98	0.636 118	0.281 108	0.176 93	0.340 105	0.565 87	0.175 118	0.551 108	0.398 112	0.370 118	0.602 113	0.361 111

SPLAT Net	0.393 114	0.472 114	0.511 114	0.606 99	0.311 115	0.656 104	0.245 111	0.405 108	0.328 113	0.197 116	0.927 95	0.227 114	0.000 119	0.001 119	0.249 109	0.271 117	0.510 112	0.383 114	0.593 113	0.699 104	0.267 115
Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz: SPLATNet: Sparse Lattice Networks for Point Cloud Processing. CVPR 2018
ScanNet+FTSDF	0.383 115	0.297 117	0.491 115	0.432 114	0.358 111	0.612 112	0.274 108	0.116 116	0.411 106	0.265 113	0.904 105	0.229 113	0.079 112	0.250 110	0.185 115	0.320 115	0.510 112	0.385 113	0.548 114	0.597 116	0.394 109

PointNet++	0.339 116	0.584 102	0.478 116	0.458 112	0.256 117	0.360 118	0.250 109	0.247 115	0.278 116	0.261 114	0.677 117	0.183 116	0.117 107	0.212 116	0.145 117	0.364 111	0.346 118	0.232 118	0.548 114	0.523 117	0.252 116
Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas: pointnet++: deep hierarchical feature learning on point sets in a metric space.
SSC-UNet	0.308 117	0.353 116	0.290 118	0.278 118	0.166 118	0.553 115	0.169 116	0.286 113	0.147 118	0.148 118	0.908 103	0.182 117	0.064 113	0.023 118	0.018 119	0.354 113	0.363 116	0.345 116	0.546 116	0.685 105	0.278 114

ScanNet	0.306 118	0.203 118	0.366 117	0.501 107	0.311 115	0.524 116	0.211 115	0.002 119	0.342 112	0.189 117	0.786 115	0.145 118	0.102 108	0.245 111	0.152 116	0.318 116	0.348 117	0.300 117	0.460 117	0.437 118	0.182 118
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17
ERROR	0.054 119	0.000 119	0.041 119	0.172 119	0.030 119	0.062 119	0.001 119	0.035 118	0.004 119	0.051 119	0.143 119	0.019 119	0.003 118	0.041 117	0.050 118	0.003 119	0.054 119	0.018 119	0.005 119	0.264 119	0.082 119

This table lists the benchmark results for the 3D semantic instance scenario.

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

PointRel	0.622 1	0.926 8	0.710 2	0.541 8	0.502 2	0.772 4	0.314 4	0.598 11	0.425 7	0.504 7	0.565 1	0.650 5	0.716 2	0.809 7	0.476 10	0.747 4	0.618 1	0.963 3	0.364 18
: Relation3D (PointRel): Enhancing Relation Modeling for Point Cloud Instance Segmentation.
SIM3D	0.617 2	0.952 4	0.629 14	0.539 9	0.426 13	0.768 8	0.302 6	0.681 2	0.425 8	0.473 13	0.511 13	0.701 1	0.717 1	0.821 6	0.467 13	0.774 1	0.559 13	0.914 15	0.448 2

Spherical Mask(CtoF)	0.616 3	0.946 5	0.654 10	0.555 5	0.434 10	0.769 7	0.271 10	0.604 8	0.447 4	0.505 5	0.549 2	0.698 2	0.716 2	0.775 14	0.480 7	0.747 5	0.575 9	0.925 11	0.436 4

EV3D	0.615 4	0.946 5	0.652 11	0.555 5	0.433 11	0.773 3	0.271 11	0.604 8	0.447 4	0.506 4	0.544 5	0.698 2	0.716 2	0.775 14	0.480 7	0.747 5	0.572 11	0.925 11	0.435 5

ExtMask3D	0.598 5	0.852 15	0.692 6	0.433 28	0.461 6	0.791 1	0.264 12	0.488 33	0.493 1	0.508 3	0.528 12	0.594 10	0.706 6	0.791 8	0.483 5	0.734 9	0.595 3	0.911 17	0.437 3

MAFT	0.596 6	0.889 13	0.721 1	0.448 21	0.460 7	0.768 9	0.251 13	0.558 21	0.408 9	0.504 6	0.539 7	0.616 8	0.618 10	0.858 3	0.482 6	0.684 18	0.551 15	0.931 10	0.450 1

UniPerception	0.588 7	0.963 3	0.667 8	0.493 13	0.472 5	0.750 12	0.229 16	0.528 26	0.468 3	0.498 10	0.542 6	0.643 6	0.530 19	0.661 35	0.463 14	0.695 17	0.599 2	0.972 1	0.420 6

MG-Former	0.587 8	0.852 15	0.639 13	0.454 20	0.393 18	0.758 11	0.338 2	0.572 16	0.480 2	0.527 2	0.491 19	0.671 4	0.527 20	0.867 1	0.485 4	0.601 28	0.590 6	0.938 9	0.390 10

InsSSM	0.586 9	1.000 1	0.593 18	0.440 24	0.480 3	0.771 5	0.345 1	0.437 37	0.444 6	0.495 11	0.548 4	0.579 13	0.621 9	0.720 26	0.409 20	0.712 11	0.593 4	0.960 4	0.395 8

Queryformer	0.583 10	0.926 8	0.702 4	0.393 34	0.504 1	0.733 18	0.276 9	0.527 27	0.373 15	0.479 12	0.534 9	0.533 20	0.697 7	0.720 27	0.436 18	0.745 7	0.592 5	0.958 5	0.363 19

Competitor-SPFormer	0.580 11	0.721 31	0.705 3	0.593 3	0.444 9	0.786 2	0.286 7	0.564 19	0.376 14	0.498 9	0.534 10	0.546 18	0.390 41	0.785 10	0.577 1	0.708 15	0.579 8	0.954 6	0.388 11

PBNet	0.573 12	0.926 8	0.575 23	0.619 1	0.472 4	0.736 16	0.239 15	0.487 34	0.383 13	0.459 16	0.506 16	0.533 19	0.585 12	0.767 16	0.404 21	0.717 10	0.559 14	0.969 2	0.381 14
W.Zhao, Y.Yan, C.Yang, J.Ye,X.Yang,K.Huang: Divide and Conquer: 3D Instance Segmentation With Point-Wise Binarization. ICCV 2023
TST3D	0.569 13	0.778 23	0.675 7	0.598 2	0.451 8	0.727 19	0.280 8	0.476 36	0.395 10	0.472 14	0.457 25	0.583 11	0.580 14	0.777 11	0.462 16	0.735 8	0.547 17	0.919 14	0.333 25
Duc Tran Dang Trung, Byeongkeun Kang, Yeejin Lee: MSTA3D: Multi-scale Twin-attention for 3D Instance Segmentation. ACM Multimedia 2024
Mask3D	0.566 14	0.926 8	0.597 17	0.408 31	0.420 15	0.737 15	0.239 14	0.598 11	0.386 12	0.458 17	0.549 2	0.568 16	0.716 2	0.601 41	0.480 7	0.646 22	0.575 9	0.922 13	0.364 17
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
OneFormer3D	0.566 14	0.781 22	0.697 5	0.562 4	0.431 12	0.770 6	0.331 3	0.400 43	0.373 16	0.529 1	0.504 17	0.568 15	0.475 25	0.732 24	0.470 11	0.762 2	0.550 16	0.871 32	0.379 15
Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: OneFormer3D: One Transformer for Unified Point Cloud Segmentation.
ISBNet	0.559 16	0.939 7	0.655 9	0.383 37	0.426 14	0.763 10	0.180 18	0.534 25	0.386 11	0.499 8	0.509 15	0.621 7	0.427 35	0.704 30	0.467 12	0.649 21	0.571 12	0.948 7	0.401 7
Tuan Duc Ngo, Binh-Son Hua, Khoi Nguyen: ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution. CVPR 2023
GraphCut	0.552 17	1.000 1	0.611 16	0.438 25	0.392 19	0.714 20	0.139 21	0.598 13	0.327 19	0.389 20	0.510 14	0.598 9	0.427 36	0.754 19	0.463 15	0.761 3	0.588 7	0.903 20	0.329 26

SPFormer	0.549 18	0.745 26	0.640 12	0.484 14	0.395 17	0.739 14	0.311 5	0.566 18	0.335 18	0.468 15	0.492 18	0.555 17	0.478 24	0.747 21	0.436 17	0.712 12	0.540 18	0.893 24	0.343 24
Sun Jiahao, Qing Chunmei, Tan Junpeng, Xu Xiangmin: Superpoint Transformer for 3D Scene Instance Segmentation. AAAI 2023 [Oral]
DKNet	0.532 19	0.815 19	0.624 15	0.517 10	0.377 21	0.749 13	0.107 23	0.509 30	0.304 21	0.437 18	0.475 20	0.581 12	0.539 17	0.775 13	0.339 26	0.640 24	0.506 21	0.901 21	0.385 13
Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong: 3D Instances as 1D Kernels. ECCV 2022
IPCA-Inst	0.520 20	0.889 13	0.551 27	0.548 7	0.418 16	0.665 30	0.064 32	0.585 14	0.260 29	0.277 34	0.471 22	0.500 21	0.644 8	0.785 9	0.369 22	0.591 31	0.511 19	0.878 29	0.362 20

SoftGroup++	0.513 21	0.704 33	0.578 22	0.398 33	0.363 27	0.704 21	0.061 33	0.647 5	0.297 26	0.378 23	0.537 8	0.343 24	0.614 11	0.828 5	0.295 31	0.710 14	0.505 23	0.875 31	0.394 9

SSTNet	0.506 22	0.738 29	0.549 28	0.497 12	0.316 32	0.693 24	0.178 19	0.377 46	0.198 35	0.330 25	0.463 24	0.576 14	0.515 21	0.857 4	0.494 2	0.637 25	0.457 27	0.943 8	0.290 35
Zhihao Liang, Zhihao Li, Songcen Xu, Mingkui Tan, Kui Jia: Instance Segmentation in 3D Scenes using Semantic Superpoint Tree Networks. ICCV2021
SoftGroup	0.504 23	0.667 40	0.579 20	0.372 39	0.381 20	0.694 23	0.072 29	0.677 3	0.303 22	0.387 21	0.531 11	0.319 28	0.582 13	0.754 18	0.318 27	0.643 23	0.492 24	0.907 19	0.388 12
Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo: SoftGroup for 3D Instance Segmentaiton on Point Clouds. CVPR 2022 [Oral]
DANCENET	0.504 23	0.926 8	0.579 19	0.472 16	0.367 24	0.626 40	0.165 20	0.432 38	0.221 31	0.408 19	0.449 27	0.411 22	0.564 15	0.746 22	0.421 19	0.707 16	0.438 30	0.846 40	0.288 36

TD3D	0.489 25	0.852 15	0.511 37	0.434 26	0.322 31	0.735 17	0.101 26	0.512 29	0.355 17	0.349 24	0.468 23	0.283 32	0.514 22	0.676 34	0.268 36	0.671 19	0.510 20	0.908 18	0.329 27
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
OccuSeg+instance	0.486 26	0.802 21	0.536 30	0.428 29	0.369 23	0.702 22	0.205 17	0.331 51	0.301 23	0.379 22	0.474 21	0.327 25	0.437 30	0.862 2	0.485 3	0.601 29	0.394 38	0.846 42	0.273 39
Lei Han, Tian Zheng, Lan Xu, Lu Fang: OccuSeg: Occupancy-aware 3D Instance Segmentation. CVPR2020
TopoSeg	0.479 27	0.704 33	0.564 24	0.467 18	0.366 25	0.633 38	0.068 30	0.554 22	0.262 28	0.328 26	0.447 28	0.323 26	0.534 18	0.722 25	0.288 33	0.614 26	0.482 25	0.912 16	0.358 22

DualGroup	0.469 28	0.815 19	0.552 26	0.398 32	0.374 22	0.683 26	0.130 22	0.539 24	0.310 20	0.327 27	0.407 31	0.276 33	0.447 29	0.535 45	0.342 25	0.659 20	0.455 28	0.900 23	0.301 31

SSEC	0.465 29	0.667 40	0.578 21	0.502 11	0.362 28	0.641 37	0.035 42	0.605 7	0.291 27	0.323 28	0.451 26	0.296 30	0.417 39	0.677 33	0.245 40	0.501 49	0.506 22	0.900 22	0.366 16

HAIS	0.457 30	0.704 33	0.561 25	0.457 19	0.364 26	0.673 27	0.046 41	0.547 23	0.194 36	0.308 29	0.426 29	0.288 31	0.454 28	0.711 28	0.262 37	0.563 39	0.434 32	0.889 26	0.344 23
Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang: Hierarchical Aggregation for 3D Instance Segmentation. ICCV 2021
DD-UNet+Group	0.436 31	0.630 48	0.508 40	0.480 15	0.310 34	0.624 42	0.065 31	0.638 6	0.174 37	0.256 38	0.384 35	0.194 45	0.428 33	0.759 17	0.289 32	0.574 36	0.400 36	0.849 39	0.291 34
H. Liu, R. Liu, K. Yang, J. Zhang, K. Peng, R. Stiefelhagen: HIDA: Towards Holistic Indoor Understanding for the Visually Impaired via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor. ICCVW 2021
INS-Conv-instance	0.435 32	0.716 32	0.495 42	0.355 41	0.331 29	0.689 25	0.102 25	0.394 45	0.208 34	0.280 32	0.395 33	0.250 36	0.544 16	0.741 23	0.309 29	0.536 45	0.391 39	0.842 45	0.258 43

Mask-Group	0.434 33	0.778 23	0.516 35	0.471 17	0.330 30	0.658 31	0.029 44	0.526 28	0.249 30	0.256 37	0.400 32	0.309 29	0.384 44	0.296 61	0.368 23	0.575 35	0.425 33	0.877 30	0.362 21
Min Zhong, Xinghao Chen, Xiaokang Chen, Gang Zeng, Yunhe Wang: MaskGroup: Hierarchical Point Grouping and Masking for 3D Instance Segmentation. ICME 2022
Box2Mask	0.433 34	0.741 27	0.463 47	0.433 27	0.283 37	0.625 41	0.103 24	0.298 56	0.125 46	0.260 36	0.424 30	0.322 27	0.472 26	0.701 31	0.363 24	0.711 13	0.309 55	0.882 27	0.272 41
Julian Chibane, Francis Engelmann, Tuan Anh Tran, Gerard Pons-Moll: Box2Mask: Weakly Supervised 3D Semantic Instance Segmentation Using Bounding Boxes. ECCV 2022
RPGN	0.428 35	0.630 48	0.508 39	0.367 40	0.249 44	0.658 32	0.016 52	0.673 4	0.131 44	0.234 41	0.383 36	0.270 34	0.434 31	0.748 20	0.274 35	0.609 27	0.406 35	0.842 44	0.267 42
Shichao Dong, Guosheng Lin, Tzu-Yi Hung: Learning Regional Purity for Instance Segmentation on 3D Point Clouds. ECCV 2022
DENet	0.413 36	0.741 27	0.520 32	0.237 52	0.284 36	0.523 51	0.097 27	0.691 1	0.138 41	0.209 51	0.229 53	0.238 39	0.390 42	0.707 29	0.310 28	0.448 56	0.470 26	0.892 25	0.310 29

PointGroup	0.407 37	0.639 47	0.496 41	0.415 30	0.243 46	0.645 36	0.021 49	0.570 17	0.114 47	0.211 49	0.359 38	0.217 43	0.428 34	0.660 36	0.256 38	0.562 40	0.341 47	0.860 35	0.291 33
Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia: PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation. CVPR 2020 [oral]
CSC-Pretrained	0.405 38	0.738 29	0.465 46	0.331 45	0.205 50	0.655 33	0.051 37	0.601 10	0.092 51	0.211 50	0.329 41	0.198 44	0.459 27	0.775 12	0.195 47	0.524 47	0.400 37	0.878 28	0.184 52

PE	0.396 39	0.667 40	0.467 45	0.446 23	0.243 45	0.624 43	0.022 48	0.577 15	0.106 48	0.219 44	0.340 39	0.239 38	0.487 23	0.475 52	0.225 42	0.541 44	0.350 45	0.818 47	0.273 40
Biao Zhang, Peter Wonka: Point Cloud Instance Segmentation using Probabilistic Embeddings. CVPR 2021
Dyco3D	0.395 40	0.642 46	0.518 34	0.447 22	0.259 43	0.666 29	0.050 38	0.251 61	0.166 38	0.231 42	0.362 37	0.232 40	0.331 47	0.535 44	0.229 41	0.587 32	0.438 31	0.850 37	0.317 28
Tong He; Chunhua Shen; Anton van den Hengel: DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution. CVPR2021
OSIS	0.392 41	0.778 23	0.530 31	0.220 54	0.278 38	0.567 48	0.083 28	0.330 52	0.299 24	0.270 35	0.310 44	0.143 51	0.260 51	0.624 39	0.277 34	0.568 38	0.361 43	0.865 34	0.301 30

AOIA	0.387 42	0.704 33	0.515 36	0.385 36	0.225 49	0.669 28	0.005 59	0.482 35	0.126 45	0.181 54	0.269 50	0.221 42	0.426 37	0.478 51	0.218 43	0.592 30	0.371 41	0.851 36	0.242 45

SSEN	0.384 43	0.852 15	0.494 43	0.192 55	0.226 48	0.648 35	0.022 47	0.398 44	0.299 25	0.277 33	0.317 43	0.231 41	0.194 58	0.514 48	0.196 45	0.586 33	0.444 29	0.843 43	0.184 51
Dongsu Zhang, Junha Chun, Sang Kyun Cha, Young Min Kim: Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with Deep Metric Learning. Arxiv
Mask3D_evaluation	0.382 44	0.593 50	0.520 33	0.390 35	0.314 33	0.600 44	0.018 51	0.287 59	0.151 40	0.281 31	0.387 34	0.169 49	0.429 32	0.654 37	0.172 51	0.578 34	0.384 40	0.670 58	0.278 38

PCJC	0.375 45	0.704 33	0.542 29	0.284 49	0.197 52	0.649 34	0.006 56	0.426 39	0.138 42	0.242 39	0.304 45	0.183 48	0.388 43	0.629 38	0.141 58	0.546 43	0.344 46	0.738 53	0.283 37

ClickSeg_Instance	0.366 46	0.654 44	0.375 51	0.184 56	0.302 35	0.592 46	0.050 39	0.300 55	0.093 50	0.283 30	0.277 47	0.249 37	0.426 38	0.615 40	0.299 30	0.504 48	0.367 42	0.832 46	0.191 50

SphereSeg	0.357 47	0.651 45	0.411 49	0.345 42	0.264 42	0.630 39	0.059 34	0.289 58	0.212 32	0.240 40	0.336 40	0.158 50	0.305 48	0.557 42	0.159 54	0.455 55	0.341 48	0.726 55	0.294 32

3D-MPA	0.355 48	0.457 60	0.484 44	0.299 47	0.277 39	0.591 47	0.047 40	0.332 49	0.212 33	0.217 45	0.278 46	0.193 46	0.413 40	0.410 55	0.195 46	0.574 37	0.352 44	0.849 38	0.213 48
Francis Engelmann, Martin Bokeloh, Alireza Fathi, Bastian Leibe, Matthias Nießner: 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation. CVPR 2020
NeuralBF	0.353 49	0.593 50	0.511 38	0.375 38	0.264 41	0.597 45	0.008 54	0.332 50	0.160 39	0.229 43	0.274 49	0.000 72	0.206 55	0.678 32	0.155 55	0.485 51	0.422 34	0.816 48	0.254 44
Weiwei Sun, Daniel Rebain, Renjie Liao, Vladimir Tankovich, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi: NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation on Point Clouds. WACV 2023
RWSeg	0.348 50	0.475 57	0.456 48	0.320 46	0.275 40	0.476 53	0.020 50	0.491 32	0.056 58	0.212 48	0.320 42	0.261 35	0.302 49	0.520 46	0.182 49	0.557 41	0.285 57	0.867 33	0.197 49

GICN	0.341 51	0.580 52	0.371 52	0.344 43	0.198 51	0.469 54	0.052 36	0.564 20	0.093 49	0.212 47	0.212 55	0.127 53	0.347 46	0.537 43	0.206 44	0.525 46	0.329 50	0.729 54	0.241 46

One_Thing_One_Click	0.326 52	0.472 58	0.361 53	0.232 53	0.183 53	0.555 49	0.000 65	0.498 31	0.038 60	0.195 52	0.226 54	0.362 23	0.168 59	0.469 53	0.251 39	0.553 42	0.335 49	0.846 41	0.117 60
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
Occipital-SCS	0.320 53	0.679 39	0.352 54	0.334 44	0.229 47	0.436 55	0.025 45	0.412 42	0.058 56	0.161 59	0.240 52	0.085 55	0.262 50	0.496 50	0.187 48	0.467 53	0.328 51	0.775 49	0.231 47

Sparse R-CNN	0.292 54	0.704 33	0.213 64	0.153 58	0.154 55	0.551 50	0.053 35	0.212 62	0.132 43	0.174 56	0.274 48	0.070 57	0.363 45	0.441 54	0.176 50	0.424 58	0.234 59	0.758 51	0.161 56

MTML	0.282 55	0.577 53	0.380 50	0.182 57	0.107 61	0.430 56	0.001 62	0.422 40	0.057 57	0.179 55	0.162 58	0.070 58	0.229 53	0.511 49	0.161 52	0.491 50	0.313 52	0.650 61	0.162 54
Jean Lahoud, Bernard Ghanem, Marc Pollefeys, Martin R. Oswald: 3D Instance Segmentation via Multi-task Metric Learning. ICCV 2019 [oral]
SALoss-ResNet	0.262 56	0.667 40	0.335 55	0.067 65	0.123 59	0.427 57	0.022 46	0.280 60	0.058 55	0.216 46	0.211 56	0.039 61	0.142 61	0.519 47	0.106 62	0.338 62	0.310 54	0.721 56	0.138 57
Zhidong Liang, Ming Yang, Hao Li, Chunxiang Wang: 3D Instance Embedding Learning With a Structure-Aware Loss Function for Point Cloud Segmentation. IEEE Robotics and Automation Letters (IROS2020)
MASC	0.254 57	0.463 59	0.249 63	0.113 59	0.167 54	0.412 59	0.000 64	0.374 47	0.073 52	0.173 57	0.243 51	0.130 52	0.228 54	0.368 57	0.160 53	0.356 60	0.208 60	0.711 57	0.136 58
Chen Liu, Yasutaka Furukawa: MASC: Multi-scale Affinity with Sparse Convolution for 3D Instance Segmentation.
3D-BoNet	0.253 58	0.519 55	0.324 58	0.251 51	0.137 58	0.345 64	0.031 43	0.419 41	0.069 53	0.162 58	0.131 60	0.052 59	0.202 57	0.338 59	0.147 57	0.301 65	0.303 56	0.651 60	0.178 53
Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen Wang, Andrew Markham, Niki Trigoni: Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds. NeurIPS 2019 Spotlight
SPG_WSIS	0.251 59	0.380 62	0.274 61	0.289 48	0.144 56	0.413 58	0.000 65	0.311 53	0.065 54	0.113 61	0.130 61	0.029 64	0.204 56	0.388 56	0.108 61	0.459 54	0.311 53	0.769 50	0.127 59

SegGroup_ins	0.246 60	0.556 54	0.335 56	0.062 67	0.115 60	0.490 52	0.000 65	0.297 57	0.018 64	0.186 53	0.142 59	0.083 56	0.233 52	0.216 63	0.153 56	0.469 52	0.251 58	0.744 52	0.083 63
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
PanopticFusion-inst	0.214 61	0.250 67	0.330 57	0.275 50	0.103 62	0.228 70	0.000 65	0.345 48	0.024 62	0.088 63	0.203 57	0.186 47	0.167 60	0.367 58	0.125 59	0.221 68	0.112 70	0.666 59	0.162 55
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
UNet-backbone	0.161 62	0.519 55	0.259 62	0.084 61	0.059 64	0.325 66	0.002 60	0.093 67	0.009 66	0.077 65	0.064 64	0.045 60	0.044 68	0.161 65	0.045 64	0.331 63	0.180 62	0.566 62	0.033 72

3D-SIS	0.161 62	0.407 61	0.155 69	0.068 64	0.043 68	0.346 63	0.001 61	0.134 64	0.005 67	0.088 62	0.106 63	0.037 62	0.135 63	0.321 60	0.028 68	0.339 61	0.116 69	0.466 65	0.093 62
Ji Hou, Angela Dai, Matthias Niessner: 3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. CVPR 2019
R-PointNet	0.158 64	0.356 63	0.173 67	0.113 60	0.140 57	0.359 60	0.012 53	0.023 70	0.039 59	0.134 60	0.123 62	0.008 68	0.089 64	0.149 66	0.117 60	0.221 67	0.128 67	0.563 63	0.094 61

Region-18class	0.146 65	0.175 71	0.321 59	0.080 62	0.062 63	0.357 61	0.000 65	0.307 54	0.002 69	0.066 66	0.044 66	0.000 72	0.018 70	0.036 71	0.054 63	0.447 57	0.133 65	0.472 64	0.060 67

SemRegionNet-20cls	0.121 66	0.296 65	0.203 65	0.071 63	0.058 65	0.349 62	0.000 65	0.150 63	0.019 63	0.054 68	0.034 69	0.017 67	0.052 66	0.042 70	0.013 71	0.209 69	0.183 61	0.371 66	0.057 68

Hier3D	0.117 67	0.222 69	0.161 68	0.054 69	0.027 70	0.289 67	0.000 65	0.124 65	0.001 71	0.079 64	0.061 65	0.027 65	0.141 62	0.240 62	0.005 72	0.310 64	0.129 66	0.153 72	0.081 64
Tan: HCFS3D: Hierarchical Coupled Feature Selection Network for 3D Semantic and Instance Segmentation.
3D-BEVIS	0.117 67	0.250 67	0.308 60	0.020 71	0.009 73	0.269 69	0.006 57	0.008 71	0.029 61	0.037 71	0.014 72	0.003 70	0.036 69	0.147 67	0.042 66	0.381 59	0.118 68	0.362 67	0.069 66
Cathrin Elich, Francis Engelmann, Jonas Schult, Theodora Kontogianni, Bastian Leibe: 3D-BEVIS: Birds-Eye-View Instance Segmentation.
tmp	0.113 69	0.333 64	0.151 70	0.056 68	0.053 66	0.344 65	0.000 65	0.105 66	0.016 65	0.049 69	0.035 68	0.020 66	0.053 65	0.048 69	0.013 70	0.183 71	0.173 63	0.344 69	0.054 69

Sem_Recon_ins	0.098 70	0.295 66	0.187 66	0.015 72	0.036 69	0.213 71	0.005 58	0.038 69	0.003 68	0.056 67	0.037 67	0.036 63	0.015 71	0.051 68	0.044 65	0.209 70	0.098 71	0.354 68	0.071 65

ASIS	0.085 71	0.037 72	0.080 72	0.066 66	0.047 67	0.282 68	0.000 65	0.052 68	0.002 70	0.047 70	0.026 70	0.001 71	0.046 67	0.194 64	0.031 67	0.264 66	0.140 64	0.167 71	0.047 71

Sgpn_scannet	0.049 72	0.023 73	0.134 71	0.031 70	0.013 72	0.144 72	0.006 55	0.008 72	0.000 72	0.028 72	0.017 71	0.003 69	0.009 73	0.000 72	0.021 69	0.122 72	0.095 72	0.175 70	0.054 70

MaskRCNN 2d->3d Proj	0.022 73	0.185 70	0.000 73	0.000 73	0.015 71	0.000 73	0.000 63	0.006 73	0.000 72	0.010 73	0.006 73	0.107 54	0.012 72	0.000 72	0.002 73	0.027 73	0.004 73	0.022 73	0.001 73

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

Virtual MVFusion (R)	0.745 1	0.861 1	0.839 1	0.881 1	0.672 2	0.512 1	0.422 17	0.898 1	0.723 1	0.714 1	0.954 2	0.454 1	0.509 1	0.773 1	0.895 1	0.756 1	0.820 1	0.653 1	0.935 1	0.891 1	0.728 1
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
BPNet_2D	0.670 2	0.822 3	0.795 3	0.836 2	0.659 3	0.481 2	0.451 13	0.769 4	0.656 3	0.567 4	0.931 3	0.395 6	0.390 5	0.700 4	0.534 4	0.689 10	0.770 2	0.574 3	0.865 9	0.831 3	0.675 5
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia and Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MVF-GNN（2D）	0.636 3	0.606 14	0.794 4	0.434 16	0.688 1	0.337 8	0.464 12	0.798 3	0.632 5	0.589 3	0.908 8	0.420 2	0.329 12	0.743 2	0.594 2	0.738 2	0.676 5	0.527 4	0.906 2	0.818 6	0.715 3

CU-Hybrid-2D Net	0.636 3	0.825 2	0.820 2	0.179 23	0.648 4	0.463 3	0.549 2	0.742 7	0.676 2	0.628 2	0.961 1	0.420 2	0.379 6	0.684 8	0.381 18	0.732 3	0.723 3	0.599 2	0.827 16	0.851 2	0.634 7

CMX	0.613 5	0.681 8	0.725 12	0.502 12	0.634 6	0.297 18	0.478 10	0.830 2	0.651 4	0.537 7	0.924 4	0.375 7	0.315 14	0.686 7	0.451 14	0.714 5	0.543 21	0.504 6	0.894 7	0.823 5	0.688 4

DMMF_3d	0.605 6	0.651 9	0.744 10	0.782 3	0.637 5	0.387 4	0.536 3	0.732 8	0.590 7	0.540 6	0.856 21	0.359 11	0.306 15	0.596 14	0.539 3	0.627 20	0.706 4	0.497 8	0.785 21	0.757 19	0.476 22

EMSANet	0.600 7	0.716 4	0.746 9	0.395 18	0.614 9	0.382 5	0.523 4	0.713 11	0.571 11	0.503 10	0.922 6	0.404 5	0.397 4	0.655 9	0.400 16	0.626 21	0.663 6	0.469 13	0.900 4	0.827 4	0.577 14
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
MCA-Net	0.595 8	0.533 20	0.756 8	0.746 4	0.590 10	0.334 10	0.506 7	0.670 15	0.587 8	0.500 12	0.905 10	0.366 10	0.352 9	0.601 13	0.506 8	0.669 16	0.648 9	0.501 7	0.839 15	0.769 15	0.516 21

RFBNet	0.592 9	0.616 11	0.758 7	0.659 5	0.581 11	0.330 11	0.469 11	0.655 18	0.543 14	0.524 8	0.924 4	0.355 13	0.336 11	0.572 17	0.479 10	0.671 14	0.648 9	0.480 10	0.814 19	0.814 7	0.614 10

FAN_NV_RVC	0.586 10	0.510 21	0.764 6	0.079 26	0.620 8	0.330 11	0.494 8	0.753 5	0.573 9	0.556 5	0.884 16	0.405 4	0.303 16	0.718 3	0.452 13	0.672 13	0.658 7	0.509 5	0.898 5	0.813 8	0.727 2

DCRedNet	0.583 11	0.682 7	0.723 13	0.542 11	0.510 20	0.310 15	0.451 13	0.668 16	0.549 13	0.520 9	0.920 7	0.375 7	0.446 2	0.528 20	0.417 15	0.670 15	0.577 18	0.478 11	0.862 10	0.806 9	0.628 9

MIX6D_RVC	0.582 12	0.695 5	0.687 17	0.225 21	0.632 7	0.328 13	0.550 1	0.748 6	0.623 6	0.494 15	0.890 14	0.350 15	0.254 23	0.688 6	0.454 12	0.716 4	0.597 17	0.489 9	0.881 8	0.768 16	0.575 15

SSMA	0.577 13	0.695 5	0.716 15	0.439 14	0.563 14	0.314 14	0.444 15	0.719 9	0.551 12	0.503 10	0.887 15	0.346 16	0.348 10	0.603 12	0.353 20	0.709 6	0.600 15	0.457 14	0.901 3	0.786 11	0.599 13
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
DMMF	0.567 14	0.623 10	0.767 5	0.238 20	0.571 13	0.347 6	0.413 19	0.719 9	0.472 20	0.418 22	0.895 13	0.357 12	0.260 22	0.696 5	0.523 7	0.666 17	0.642 11	0.437 18	0.895 6	0.793 10	0.603 12

UNIV_CNP_RVC_UE	0.566 15	0.569 19	0.686 19	0.435 15	0.524 17	0.294 19	0.421 18	0.712 12	0.543 14	0.463 17	0.872 17	0.320 17	0.363 8	0.611 11	0.477 11	0.686 11	0.627 12	0.443 17	0.862 10	0.775 14	0.639 6

EMSAFormer	0.564 16	0.581 16	0.736 11	0.564 10	0.546 16	0.219 23	0.517 5	0.675 14	0.486 19	0.427 21	0.904 11	0.352 14	0.320 13	0.589 15	0.528 5	0.708 7	0.464 24	0.413 22	0.847 14	0.786 11	0.611 11

SN_RN152pyrx8_RVC	0.546 17	0.572 17	0.663 21	0.638 7	0.518 18	0.298 17	0.366 24	0.633 21	0.510 17	0.446 19	0.864 19	0.296 20	0.267 19	0.542 19	0.346 21	0.704 8	0.575 19	0.431 19	0.853 13	0.766 17	0.630 8

UDSSEG_RVC	0.545 18	0.610 13	0.661 22	0.588 8	0.556 15	0.268 21	0.482 9	0.642 20	0.572 10	0.475 16	0.836 23	0.312 18	0.367 7	0.630 10	0.189 23	0.639 19	0.495 23	0.452 15	0.826 17	0.756 20	0.541 17

segfomer with 6d	0.542 19	0.594 15	0.687 17	0.146 24	0.579 12	0.308 16	0.515 6	0.703 13	0.472 20	0.498 13	0.868 18	0.369 9	0.282 17	0.589 15	0.390 17	0.701 9	0.556 20	0.416 21	0.860 12	0.759 18	0.539 19

FuseNet	0.535 20	0.570 18	0.681 20	0.182 22	0.512 19	0.290 20	0.431 16	0.659 17	0.504 18	0.495 14	0.903 12	0.308 19	0.428 3	0.523 21	0.365 19	0.676 12	0.621 14	0.470 12	0.762 22	0.779 13	0.541 17
Caner Hazirbas, Lingni Ma, Csaba Domokos, Daniel Cremers: FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. ACCV 2016
AdapNet++	0.503 21	0.613 12	0.722 14	0.418 17	0.358 26	0.337 8	0.370 23	0.479 24	0.443 22	0.368 24	0.907 9	0.207 23	0.213 25	0.464 24	0.525 6	0.618 22	0.657 8	0.450 16	0.788 20	0.721 23	0.408 25
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
3DMV (2d proj)	0.498 22	0.481 24	0.612 23	0.579 9	0.456 22	0.343 7	0.384 21	0.623 22	0.525 16	0.381 23	0.845 22	0.254 22	0.264 21	0.557 18	0.182 24	0.581 24	0.598 16	0.429 20	0.760 23	0.661 25	0.446 24
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
MSeg1080_RVC	0.485 23	0.505 22	0.709 16	0.092 25	0.427 23	0.241 22	0.411 20	0.654 19	0.385 26	0.457 18	0.861 20	0.053 26	0.279 18	0.503 22	0.481 9	0.645 18	0.626 13	0.365 24	0.748 24	0.725 22	0.529 20
John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun: MSeg: A Composite Dataset for Multi-domain Semantic Segmentation. CVPR 2020
ILC-PSPNet	0.475 24	0.490 23	0.581 24	0.289 19	0.507 21	0.067 26	0.379 22	0.610 23	0.417 24	0.435 20	0.822 25	0.278 21	0.267 19	0.503 22	0.228 22	0.616 23	0.533 22	0.375 23	0.820 18	0.729 21	0.560 16

Enet (reimpl)	0.376 25	0.264 26	0.452 26	0.452 13	0.365 24	0.181 24	0.143 26	0.456 25	0.409 25	0.346 25	0.769 26	0.164 24	0.218 24	0.359 25	0.123 26	0.403 26	0.381 26	0.313 26	0.571 25	0.685 24	0.472 23
Re-implementation of Adam Paszke, Abhishek Chaurasia, Sangpil Kim, Eugenio Culurciello: ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation.
ScanNet (2d proj)	0.330 26	0.293 25	0.521 25	0.657 6	0.361 25	0.161 25	0.250 25	0.004 26	0.440 23	0.183 26	0.836 23	0.125 25	0.060 26	0.319 26	0.132 25	0.417 25	0.412 25	0.344 25	0.541 26	0.427 26	0.109 26
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

EMSANet (Instance)	0.241 1	0.401 1	0.439 1	0.085 1	0.242 1	0.220 1	0.081 1	0.289 2	0.117 2	0.121 1	0.182 1	0.126 1	0.346 1	0.181 2	0.181 2	0.358 1	0.156 1	0.675 2	0.131 1
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
UniDet_RVC	0.205 2	0.381 2	0.323 3	0.037 3	0.226 3	0.177 3	0.063 2	0.277 3	0.120 1	0.067 3	0.131 3	0.074 3	0.317 2	0.080 3	0.235 1	0.289 3	0.141 3	0.678 1	0.080 3

FKNet	0.204 3	0.334 3	0.358 2	0.038 2	0.234 2	0.184 2	0.025 3	0.318 1	0.042 4	0.088 2	0.141 2	0.053 4	0.300 3	0.207 1	0.171 3	0.292 2	0.149 2	0.636 3	0.109 2

MaskRCNN_ScanNet	0.119 4	0.129 4	0.212 4	0.002 4	0.112 4	0.148 4	0.014 4	0.205 4	0.044 3	0.066 4	0.078 4	0.095 2	0.142 4	0.030 4	0.128 4	0.139 4	0.080 4	0.459 4	0.057 4
Re-implementation of Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick: Mask R-CNN. ICCV'17

Presenting the ScanNet200 Benchmark

ScanNet200 Benchmark

ScanNet200 3D Semantic Label Benchmark

ScanNet200 3D Semantic Instance Benchmark

ScanNet Benchmark

3D Semantic Label Benchmark

3D Semantic Instance Benchmark

2D Semantic Label Benchmark

2D Semantic Instance Benchmark

Scene Type Classification Benchmark

Method	avg recall	apartment	bathroom	bedroom / hotel	bookstore / library	conference room	copy/mail room	hallway	kitchen	laundry room	living room / lounge	misc	office	storage / basement / garage

LAST-PCL-type	0.780 1	0.250 3	1.000 1	1.000 1	1.000 1	1.000 1	1.000 1	0.500 2	1.000 1	0.500 2	0.889 1	0.000 2	1.000 1	1.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang: Language-Assisted 3D Scene Understanding. arxiv23.12
multi-task	0.700 2	0.500 1	1.000 1	0.882 3	0.500 3	1.000 1	1.000 1	0.500 2	1.000 1	1.000 1	0.778 2	0.000 2	0.938 2	0.000 3
Shengyu Huang, Mikhail Usvyatsov, Konrad Schindler: Indoor Scene Recognition in 3D. IROS 2020
3DASPP-SCE	0.691 3	0.500 1	0.938 3	0.824 4	1.000 1	1.000 1	0.500 3	1.000 1	0.857 3	0.500 2	0.556 4	0.000 2	0.812 3	0.500 2

SE-ResNeXt-SSMA	0.498 4	0.000 5	0.812 4	0.941 2	0.500 3	0.500 4	0.500 3	0.500 2	0.429 5	0.500 2	0.667 3	0.500 1	0.625 4	0.000 3
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. arXiv
resnet50_scannet	0.353 5	0.250 3	0.812 4	0.529 5	0.500 3	0.500 4	0.000 5	0.500 2	0.571 4	0.000 5	0.556 4	0.000 2	0.375 5	0.000 3