Benchmark Results - ScanNet Benchmark

This table lists the benchmark results for the ScanNet200 3D semantic label scenario.

Method	avg iou	head iou	common iou	tail iou	wall	chair	floor	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

DITR	0.449 1	0.629 1	0.392 1	0.289 1	0.851 2	0.727 1	0.969 4	0.600 1	0.741 2	0.805 1	0.519 1	0.480 3	0.636 1	0.014 10	0.867 1	0.680 1	0.849 1	0.318 3	0.753 2	0.982 2	0.508 12	0.871 6	0.934 2	0.482 1	0.596 11	0.551 2	0.804 4	0.508 6	0.729 1	0.718 2	0.417 4	0.886 1	0.664 3	0.000 17	0.500 2	0.698 1	0.000 1	0.913 1	0.901 3	0.766 7	0.113 12	0.000 7	0.617 5	0.168 2	0.650 1	0.477 1	0.826 1	0.962 1	0.348 3	0.300 1	0.947 1	0.776 2	0.160 3	0.889 1	0.651 5	0.720 2	0.700 1	0.728 3	0.317 1	0.000 3	0.238 5	0.664 1	0.869 4	0.514 2	0.998 1	0.313 3	0.138 10	0.815 1	0.828 1	0.622 2	0.421 5	0.000 1	0.823 1	0.817 1	0.000 4	0.000 9	0.000 1	0.157 2	0.866 3	0.991 1	0.805 1	0.660 4	0.571 2	0.043 12	0.709 6	0.642 3	0.000 3	0.000 7	0.000 1	0.028 10	0.018 3	0.134 3	0.967 2	0.000 1	0.150 2	0.130 2	0.949 1	0.855 1	0.580 1	0.262 5	0.314 1	0.230 5	0.222 4	0.498 5	0.367 1	0.153 3	0.869 1	0.334 2	0.397 8	0.000 3	0.904 1	0.486 2	1.000 1	0.423 4	0.484 1	0.632 6	0.716 1	0.733 2	0.862 1	0.000 1	0.433 14	0.710 1	0.851 2	0.000 1	0.034 4	0.315 3	0.385 1	0.000 7	0.001 9	0.268 9	0.066 11	0.000 8	0.278 4	0.000 1	0.978 1	0.839 8	0.000 1	0.448 4	0.000 1	0.579 1	0.403 12	0.000 1	0.647 3	0.000 1	0.000 1	0.411 3	0.315 6	0.904 7	0.420 1	0.392 2	0.000 1	0.091 6	0.000 1	0.128 3	0.564 3	0.591 3	0.568 2	0.079 9	0.139 9	1.000 1	0.714 3	0.178 1	0.000 1	0.606 3	0.000 2	0.000 2	0.148 6	0.983 1	0.000 3	0.000 1	0.000 1	0.374 2	0.000 7	0.000 3	0.662 4	0.000 1
Karim Abou Zeid, Kadir Yilmaz, Daan de Geus, Alexander Hermans, David Adrian, Timm Linder, Bastian Leibe: DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation.
ALS-MinkowskiNet	0.414 2	0.610 2	0.322 3	0.271 2	0.852 1	0.710 2	0.973 1	0.572 4	0.719 3	0.795 2	0.477 6	0.506 2	0.601 3	0.000 14	0.804 5	0.646 3	0.804 2	0.344 2	0.777 1	0.984 1	0.671 1	0.879 2	0.936 1	0.342 5	0.632 7	0.449 4	0.817 3	0.475 10	0.723 2	0.798 1	0.376 8	0.832 2	0.693 1	0.031 9	0.564 1	0.510 13	0.000 1	0.893 3	0.905 1	0.672 16	0.314 1	0.000 7	0.718 1	0.153 3	0.542 2	0.397 3	0.726 3	0.752 8	0.252 8	0.226 2	0.916 2	0.800 1	0.047 16	0.807 3	0.769 1	0.709 3	0.630 3	0.769 1	0.217 10	0.000 3	0.285 1	0.598 4	0.846 10	0.535 1	0.956 4	0.000 7	0.137 11	0.784 2	0.464 7	0.463 13	0.230 12	0.000 1	0.598 3	0.662 9	0.000 4	0.087 2	0.000 1	0.135 3	0.900 2	0.780 11	0.703 2	0.741 1	0.571 2	0.149 9	0.697 7	0.646 2	0.000 3	0.076 2	0.000 1	0.025 11	0.000 4	0.106 6	0.981 1	0.000 1	0.043 7	0.113 4	0.888 2	0.248 15	0.404 4	0.252 6	0.314 1	0.220 7	0.245 2	0.466 7	0.366 2	0.159 2	0.000 4	0.149 8	0.690 2	0.000 3	0.531 5	0.253 3	0.285 6	0.460 1	0.440 5	0.813 1	0.230 3	0.283 6	0.159 11	0.000 1	0.728 1	0.666 5	0.958 1	0.000 1	0.021 5	0.252 8	0.118 5	0.000 7	0.445 3	0.223 10	0.285 1	0.194 3	0.390 2	0.000 1	0.475 4	0.842 7	0.000 1	0.455 3	0.000 1	0.250 7	0.458 8	0.000 1	0.865 1	0.000 1	0.000 1	0.635 1	0.359 5	0.972 1	0.087 3	0.447 1	0.000 1	0.000 9	0.000 1	0.129 2	0.532 6	0.446 8	0.503 5	0.071 13	0.135 12	0.699 4	0.717 2	0.097 2	0.000 1	0.665 1	0.000 2	0.000 2	1.000 1	0.752 6	0.000 3	0.000 1	0.000 1	0.142 9	0.200 1	0.259 1	1.000 1	0.000 1
Guangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum: ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding. CVPR 2025
PTv3 ScanNet200	0.393 3	0.592 3	0.330 2	0.216 3	0.851 2	0.687 6	0.971 2	0.586 2	0.755 1	0.752 7	0.505 2	0.404 7	0.575 5	0.000 14	0.848 2	0.616 4	0.761 3	0.349 1	0.738 3	0.978 3	0.546 6	0.860 8	0.926 3	0.346 4	0.654 3	0.384 7	0.828 1	0.523 4	0.699 3	0.583 6	0.387 7	0.822 3	0.688 2	0.118 4	0.474 3	0.603 5	0.000 1	0.832 8	0.903 2	0.753 9	0.140 10	0.000 7	0.650 3	0.109 5	0.520 3	0.457 2	0.497 10	0.871 4	0.281 4	0.192 5	0.887 4	0.748 3	0.168 2	0.727 7	0.733 2	0.740 1	0.644 2	0.714 5	0.190 13	0.000 3	0.256 3	0.449 10	0.914 1	0.514 2	0.759 15	0.337 1	0.172 6	0.692 7	0.617 3	0.636 1	0.325 7	0.000 1	0.641 2	0.782 2	0.000 4	0.065 3	0.000 1	0.000 6	0.842 4	0.903 2	0.661 4	0.662 3	0.612 1	0.405 2	0.731 4	0.566 4	0.000 3	0.000 7	0.000 1	0.017 15	0.301 1	0.088 7	0.941 3	0.000 1	0.077 4	0.000 10	0.717 8	0.790 2	0.310 12	0.026 17	0.264 4	0.349 1	0.220 5	0.397 12	0.366 2	0.115 13	0.000 4	0.337 1	0.463 6	0.000 3	0.531 5	0.218 4	0.593 2	0.455 2	0.469 2	0.708 3	0.210 4	0.592 4	0.108 16	0.000 1	0.728 1	0.682 3	0.671 8	0.000 1	0.000 11	0.407 1	0.136 4	0.022 3	0.575 1	0.436 4	0.259 3	0.428 1	0.048 6	0.000 1	0.000 5	0.879 5	0.000 1	0.480 2	0.000 1	0.133 9	0.597 2	0.000 1	0.690 2	0.000 1	0.000 1	0.009 16	0.000 15	0.921 3	0.000 9	0.151 5	0.000 1	0.000 9	0.000 1	0.109 8	0.494 11	0.622 2	0.394 9	0.073 12	0.141 7	0.798 2	0.528 8	0.026 5	0.000 1	0.551 5	0.000 2	0.000 2	0.134 7	0.717 8	0.000 3	0.000 1	0.000 1	0.188 4	0.000 7	0.000 3	0.791 3	0.000 1
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
ODIN - Sem200	0.368 4	0.562 4	0.297 4	0.207 4	0.800 10	0.669 13	0.940 10	0.575 3	0.654 9	0.749 8	0.487 3	0.589 1	0.609 2	0.001 12	0.769 12	0.561 8	0.752 6	0.274 5	0.682 6	0.926 13	0.554 4	0.833 14	0.921 4	0.389 2	0.599 10	0.591 1	0.787 8	0.550 2	0.657 5	0.610 4	0.334 13	0.803 8	0.661 4	0.090 6	0.408 7	0.373 15	0.000 1	0.912 2	0.796 17	0.501 17	0.169 8	0.000 7	0.641 4	0.196 1	0.380 17	0.397 3	0.641 5	0.740 9	0.862 1	0.213 3	0.857 6	0.685 7	0.216 1	0.578 16	0.557 10	0.685 5	0.523 8	0.581 16	0.312 3	0.000 3	0.065 15	0.000 17	0.871 3	0.359 8	0.988 2	0.321 2	0.090 16	0.704 6	0.631 2	0.393 15	0.246 11	0.000 1	0.482 8	0.565 15	0.000 4	0.000 9	0.000 1	0.181 1	0.913 1	0.468 16	0.632 8	0.642 5	0.259 11	0.000 17	0.832 1	0.663 1	0.000 3	0.081 1	0.000 1	0.048 2	0.000 4	0.376 1	0.898 7	0.000 1	0.157 1	0.000 10	0.870 3	0.000 17	0.400 5	0.265 4	0.242 5	0.227 6	0.539 1	0.370 14	0.214 13	0.129 10	0.000 4	0.131 10	0.054 17	0.000 3	0.358 9	0.491 1	0.462 4	0.434 3	0.346 15	0.454 15	0.316 2	0.814 1	0.828 2	0.000 1	0.000 17	0.220 17	0.612 11	0.000 1	0.000 11	0.373 2	0.378 2	0.000 7	0.429 4	0.152 11	0.077 9	0.166 4	0.202 5	0.000 1	0.000 5	0.441 14	0.000 1	0.440 6	0.000 1	0.000 12	0.655 1	0.000 1	0.626 7	0.000 1	0.000 1	0.228 9	0.487 1	0.784 16	0.000 9	0.301 3	0.000 1	0.426 2	0.000 1	0.108 9	0.460 13	0.590 4	0.775 1	0.088 6	0.119 15	0.485 9	0.791 1	0.000 12	0.000 1	0.256 17	0.000 2	0.000 2	0.000 11	0.885 3	0.303 1	0.000 1	0.000 1	0.127 16	0.000 7	0.000 3	0.894 2	0.000 1
Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki: ODIN: A Single Model for 2D and 3D Segmentation. CVPR 2024
BFANet ScanNet200	0.360 5	0.553 7	0.293 5	0.193 5	0.827 4	0.689 4	0.970 3	0.528 13	0.661 6	0.753 6	0.436 8	0.378 8	0.469 15	0.042 7	0.810 3	0.654 2	0.760 4	0.266 10	0.659 10	0.973 4	0.574 3	0.849 11	0.897 5	0.382 3	0.546 13	0.372 9	0.698 14	0.491 9	0.617 10	0.526 10	0.436 1	0.764 14	0.476 17	0.101 5	0.409 6	0.585 10	0.000 1	0.835 6	0.901 3	0.810 5	0.102 14	0.000 7	0.688 2	0.096 6	0.483 10	0.264 12	0.612 9	0.591 16	0.358 2	0.161 6	0.863 5	0.707 4	0.128 4	0.814 2	0.669 4	0.629 10	0.563 4	0.651 14	0.258 5	0.000 3	0.194 10	0.494 9	0.806 12	0.394 6	0.953 5	0.000 7	0.233 1	0.757 4	0.508 6	0.556 4	0.476 4	0.000 1	0.573 5	0.741 6	0.000 4	0.000 9	0.000 1	0.000 6	0.000 17	0.852 5	0.678 3	0.616 6	0.460 5	0.338 3	0.710 5	0.534 5	0.000 3	0.025 4	0.000 1	0.043 3	0.000 4	0.056 12	0.493 17	0.000 1	0.000 10	0.109 5	0.785 7	0.590 6	0.298 13	0.282 3	0.143 13	0.262 4	0.053 11	0.526 4	0.337 5	0.215 1	0.000 4	0.135 9	0.510 4	0.000 3	0.596 4	0.043 14	0.511 3	0.321 12	0.459 3	0.772 2	0.124 13	0.060 14	0.266 6	0.000 1	0.574 9	0.568 9	0.653 10	0.000 1	0.093 1	0.298 4	0.239 3	0.000 7	0.516 2	0.129 14	0.284 2	0.000 8	0.431 1	0.000 1	0.000 5	0.848 6	0.000 1	0.492 1	0.000 1	0.376 3	0.522 6	0.000 1	0.469 17	0.000 1	0.000 1	0.330 6	0.151 10	0.875 14	0.000 9	0.254 4	0.000 1	0.000 9	0.000 1	0.088 13	0.661 1	0.481 5	0.255 12	0.105 1	0.139 9	0.666 5	0.641 5	0.000 12	0.000 1	0.614 2	0.000 2	0.000 2	0.000 11	0.921 2	0.000 3	0.000 1	0.000 1	0.497 1	0.000 7	0.000 3	0.000 11	0.000 1
Weiguang Zhao, Rui Zhang, Qiufeng Wang, Guangliang Cheng, Kaizhu Huang: BFANet: Revisiting 3D Semantic Segmentation with Boundary Feature Analysis. CVPR 2025
PonderV2 ScanNet200	0.346 6	0.552 8	0.270 8	0.175 9	0.810 7	0.682 9	0.950 5	0.560 7	0.641 10	0.761 3	0.398 13	0.357 10	0.570 8	0.113 2	0.804 5	0.603 6	0.750 7	0.283 4	0.681 7	0.952 5	0.548 5	0.874 4	0.852 13	0.290 12	0.700 2	0.356 11	0.792 5	0.445 12	0.545 13	0.436 12	0.351 12	0.787 10	0.611 8	0.050 8	0.290 14	0.519 12	0.000 1	0.825 10	0.888 5	0.842 3	0.259 3	0.100 2	0.558 7	0.070 12	0.497 7	0.247 14	0.457 11	0.889 3	0.248 9	0.106 10	0.817 13	0.691 6	0.094 7	0.729 6	0.636 6	0.620 12	0.503 11	0.660 13	0.243 7	0.000 3	0.212 7	0.590 5	0.860 8	0.400 5	0.881 9	0.000 7	0.202 2	0.622 10	0.408 11	0.499 8	0.261 10	0.000 1	0.385 10	0.636 10	0.000 4	0.000 9	0.000 1	0.000 6	0.433 16	0.843 6	0.660 6	0.574 12	0.481 4	0.336 4	0.677 9	0.486 6	0.000 3	0.030 3	0.000 1	0.034 6	0.000 4	0.080 8	0.869 10	0.000 1	0.000 10	0.000 10	0.540 10	0.727 3	0.232 17	0.115 11	0.186 10	0.193 9	0.000 14	0.403 11	0.326 6	0.103 14	0.000 4	0.290 4	0.392 9	0.000 3	0.346 10	0.062 10	0.424 5	0.375 7	0.431 6	0.667 4	0.115 14	0.082 12	0.239 7	0.000 1	0.504 12	0.606 8	0.584 12	0.000 1	0.002 9	0.186 10	0.104 10	0.000 7	0.394 5	0.384 6	0.083 8	0.000 8	0.007 9	0.000 1	0.000 5	0.880 4	0.000 1	0.377 10	0.000 1	0.263 6	0.565 3	0.000 1	0.608 9	0.000 1	0.000 1	0.304 7	0.009 11	0.924 2	0.000 9	0.000 11	0.000 1	0.000 9	0.000 1	0.128 3	0.584 2	0.475 7	0.412 8	0.076 11	0.269 3	0.621 6	0.509 9	0.010 7	0.000 1	0.491 11	0.063 1	0.000 2	0.472 4	0.880 4	0.000 3	0.000 1	0.000 1	0.179 5	0.125 2	0.000 3	0.441 10	0.000 1
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
CeCo	0.340 7	0.551 9	0.247 13	0.181 6	0.784 13	0.661 14	0.939 13	0.564 6	0.624 13	0.721 12	0.484 5	0.429 5	0.575 5	0.027 8	0.774 11	0.503 14	0.753 5	0.242 13	0.656 11	0.945 9	0.534 7	0.865 7	0.860 11	0.177 17	0.616 8	0.400 5	0.818 2	0.579 1	0.615 11	0.367 14	0.408 6	0.726 15	0.633 5	0.162 1	0.360 9	0.619 3	0.000 1	0.828 9	0.873 9	0.924 2	0.109 13	0.083 3	0.564 6	0.057 15	0.475 12	0.266 11	0.781 2	0.767 7	0.257 7	0.100 11	0.825 11	0.663 10	0.048 15	0.620 13	0.551 12	0.595 13	0.532 7	0.692 8	0.246 6	0.000 3	0.213 6	0.615 2	0.861 7	0.376 7	0.900 8	0.000 7	0.102 15	0.660 8	0.321 15	0.547 5	0.226 13	0.000 1	0.311 13	0.742 5	0.011 3	0.006 8	0.000 1	0.000 6	0.546 15	0.824 8	0.345 14	0.665 2	0.450 6	0.435 1	0.683 8	0.411 8	0.338 1	0.000 7	0.000 1	0.030 9	0.000 4	0.068 9	0.892 8	0.000 1	0.063 5	0.000 10	0.257 13	0.304 13	0.387 6	0.079 14	0.228 6	0.190 11	0.000 14	0.586 1	0.347 4	0.133 7	0.000 4	0.037 13	0.377 10	0.000 3	0.384 8	0.006 16	0.003 13	0.421 5	0.410 10	0.643 5	0.171 9	0.121 9	0.142 12	0.000 1	0.510 11	0.447 11	0.474 14	0.000 1	0.000 11	0.286 5	0.083 11	0.000 7	0.000 10	0.603 1	0.096 7	0.063 5	0.000 11	0.000 1	0.000 5	0.898 3	0.000 1	0.429 7	0.000 1	0.400 2	0.550 4	0.000 1	0.633 6	0.000 1	0.000 1	0.377 5	0.000 15	0.916 4	0.000 9	0.000 11	0.000 1	0.000 9	0.000 1	0.102 12	0.499 9	0.296 14	0.463 6	0.089 5	0.304 1	0.740 3	0.401 16	0.010 7	0.000 1	0.560 4	0.000 2	0.000 2	0.709 2	0.652 10	0.000 3	0.000 1	0.000 1	0.143 8	0.000 7	0.000 3	0.609 5	0.000 1
Zhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia: Understanding Imbalanced Semantic Segmentation Through Neural Collapse. CVPR 2023
L3DETR-ScanNet_200	0.336 8	0.533 11	0.279 6	0.155 10	0.801 9	0.689 4	0.946 6	0.539 11	0.660 7	0.759 4	0.380 14	0.333 14	0.583 4	0.000 14	0.788 10	0.529 10	0.740 8	0.261 12	0.679 9	0.940 12	0.525 10	0.860 8	0.883 7	0.226 13	0.613 9	0.397 6	0.720 11	0.512 5	0.565 12	0.620 3	0.417 4	0.775 13	0.629 6	0.158 2	0.298 12	0.579 11	0.000 1	0.835 6	0.883 6	0.927 1	0.114 11	0.079 4	0.511 10	0.073 11	0.508 5	0.312 6	0.629 6	0.861 5	0.192 14	0.098 13	0.908 3	0.636 11	0.032 17	0.563 17	0.514 15	0.664 6	0.505 10	0.697 7	0.225 9	0.000 3	0.264 2	0.411 12	0.860 8	0.321 13	0.960 3	0.058 6	0.109 13	0.776 3	0.526 5	0.557 3	0.303 9	0.000 1	0.339 12	0.712 7	0.000 4	0.014 7	0.000 1	0.000 6	0.638 12	0.856 4	0.641 7	0.579 11	0.107 17	0.119 11	0.661 11	0.416 7	0.000 3	0.000 7	0.000 1	0.007 17	0.000 4	0.067 10	0.910 5	0.000 1	0.000 10	0.000 10	0.463 11	0.448 8	0.294 14	0.324 1	0.293 3	0.211 8	0.108 8	0.448 8	0.068 17	0.141 6	0.000 4	0.330 3	0.699 1	0.000 3	0.256 11	0.192 6	0.000 15	0.355 8	0.418 7	0.209 17	0.146 12	0.679 3	0.101 17	0.000 1	0.503 13	0.687 2	0.671 8	0.000 1	0.000 11	0.174 11	0.117 6	0.000 7	0.122 7	0.515 2	0.104 6	0.259 2	0.312 3	0.000 1	0.000 5	0.765 12	0.000 1	0.369 12	0.000 1	0.183 8	0.422 11	0.000 1	0.646 4	0.000 1	0.000 1	0.565 2	0.001 14	0.125 17	0.010 7	0.002 10	0.000 1	0.487 1	0.000 1	0.075 14	0.548 4	0.420 9	0.233 14	0.082 8	0.138 11	0.430 12	0.427 13	0.000 12	0.000 1	0.549 6	0.000 2	0.000 2	0.074 8	0.409 16	0.000 3	0.000 1	0.000 1	0.152 7	0.051 3	0.000 3	0.598 6	0.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, Jian Zhang: Language-Assisted 3D Scene Understanding. arXiv23.12
IMFSegNet	0.334 9	0.532 13	0.251 11	0.179 7	0.799 11	0.683 8	0.940 10	0.555 8	0.631 12	0.740 11	0.406 10	0.336 13	0.560 9	0.062 4	0.795 7	0.518 12	0.733 10	0.274 5	0.646 13	0.947 8	0.458 17	0.848 13	0.862 10	0.305 10	0.649 4	0.284 13	0.713 13	0.495 8	0.626 8	0.527 9	0.363 9	0.820 5	0.574 13	0.010 14	0.411 4	0.597 7	0.000 1	0.842 4	0.873 9	0.704 14	0.246 4	0.000 7	0.495 11	0.041 16	0.486 9	0.305 7	0.444 12	0.604 15	0.134 16	0.055 16	0.852 9	0.633 13	0.076 9	0.792 4	0.612 8	0.573 17	0.484 12	0.668 12	0.216 12	0.000 3	0.197 9	0.518 6	0.784 13	0.344 12	0.908 7	0.283 4	0.190 4	0.599 13	0.439 10	0.496 10	0.569 2	0.000 1	0.392 9	0.776 3	0.000 4	0.064 4	0.000 1	0.000 6	0.710 9	0.756 12	0.508 11	0.512 16	0.159 15	0.034 14	0.773 2	0.363 10	0.000 3	0.000 7	0.000 1	0.032 7	0.000 4	0.029 16	0.648 16	0.000 1	0.000 10	0.000 10	0.830 6	0.595 4	0.274 15	0.228 8	0.206 8	0.188 12	0.000 14	0.425 9	0.237 11	0.123 12	0.000 4	0.277 6	0.214 14	0.003 1	0.610 2	0.044 12	0.124 10	0.320 14	0.408 11	0.594 9	0.196 7	0.213 7	0.139 13	0.000 1	0.615 6	0.618 6	0.839 3	0.000 1	0.014 6	0.260 6	0.080 12	0.025 2	0.000 10	0.139 12	0.135 5	0.035 7	0.000 11	0.000 1	0.793 2	0.799 9	0.000 1	0.357 13	0.000 1	0.369 5	0.359 13	0.000 1	0.512 15	0.000 1	0.000 1	0.120 12	0.424 2	0.903 8	0.027 5	0.091 6	0.000 1	0.245 5	0.000 1	0.073 16	0.457 14	0.340 12	0.191 15	0.021 15	0.009 17	0.322 15	0.608 6	0.060 3	0.000 1	0.494 10	0.000 2	0.000 2	0.068 10	0.624 11	0.000 3	0.000 1	0.000 1	0.139 11	0.047 4	0.000 3	0.561 7	0.000 1

GSTran	0.334 10	0.533 12	0.250 12	0.179 8	0.799 11	0.684 7	0.940 10	0.554 9	0.633 11	0.741 10	0.405 11	0.337 12	0.560 9	0.060 5	0.794 8	0.517 13	0.732 11	0.274 5	0.647 12	0.948 7	0.459 16	0.849 11	0.864 9	0.306 9	0.648 5	0.282 14	0.717 12	0.496 7	0.624 9	0.533 8	0.363 9	0.821 4	0.573 14	0.009 15	0.411 4	0.593 9	0.000 1	0.841 5	0.873 9	0.704 14	0.242 5	0.000 7	0.495 11	0.041 16	0.487 8	0.304 8	0.439 13	0.613 13	0.133 17	0.055 16	0.853 8	0.634 12	0.075 12	0.791 5	0.601 9	0.574 16	0.483 13	0.669 11	0.217 10	0.000 3	0.198 8	0.518 6	0.782 14	0.345 11	0.914 6	0.273 5	0.193 3	0.598 14	0.440 9	0.499 8	0.570 1	0.000 1	0.381 11	0.775 4	0.000 4	0.063 5	0.000 1	0.000 6	0.712 8	0.752 13	0.507 12	0.512 16	0.158 16	0.036 13	0.773 2	0.361 11	0.000 3	0.000 7	0.000 1	0.032 7	0.000 4	0.032 15	0.651 15	0.000 1	0.000 10	0.000 10	0.831 5	0.595 4	0.273 16	0.229 7	0.200 9	0.191 10	0.000 14	0.425 9	0.233 12	0.125 11	0.000 4	0.279 5	0.213 15	0.003 1	0.608 3	0.044 12	0.138 9	0.321 12	0.408 11	0.593 10	0.198 5	0.205 8	0.139 13	0.000 1	0.614 7	0.609 7	0.838 4	0.000 1	0.014 6	0.260 6	0.080 12	0.010 5	0.000 10	0.136 13	0.136 4	0.047 6	0.000 11	0.000 1	0.787 3	0.797 10	0.000 1	0.354 14	0.000 1	0.372 4	0.357 14	0.000 1	0.507 16	0.000 1	0.000 1	0.121 11	0.423 3	0.903 8	0.028 4	0.089 7	0.000 1	0.252 4	0.000 1	0.072 17	0.465 12	0.340 12	0.189 16	0.020 16	0.011 16	0.320 16	0.606 7	0.060 3	0.000 1	0.496 9	0.000 2	0.000 2	0.070 9	0.618 13	0.000 3	0.000 1	0.000 1	0.139 11	0.047 4	0.000 3	0.558 8	0.000 1

OA-CNN-L_ScanNet200	0.333 11	0.558 5	0.269 9	0.124 13	0.821 5	0.703 3	0.946 6	0.569 5	0.662 4	0.748 9	0.487 3	0.455 4	0.572 7	0.000 14	0.789 9	0.534 9	0.736 9	0.271 8	0.713 4	0.949 6	0.498 14	0.877 3	0.860 11	0.332 7	0.706 1	0.474 3	0.788 7	0.406 13	0.637 6	0.495 11	0.355 11	0.805 7	0.592 12	0.015 13	0.396 8	0.602 6	0.000 1	0.799 11	0.876 7	0.713 13	0.276 2	0.000 7	0.493 13	0.080 9	0.448 14	0.363 5	0.661 4	0.833 6	0.262 6	0.125 7	0.823 12	0.665 9	0.076 9	0.720 8	0.557 10	0.637 9	0.517 9	0.672 10	0.227 8	0.000 3	0.158 12	0.496 8	0.843 11	0.352 10	0.835 13	0.000 7	0.103 14	0.711 5	0.527 4	0.526 6	0.320 8	0.000 1	0.568 6	0.625 11	0.067 1	0.000 9	0.000 1	0.001 5	0.806 6	0.836 7	0.621 10	0.591 8	0.373 8	0.314 5	0.668 10	0.398 9	0.003 2	0.000 7	0.000 1	0.016 16	0.024 2	0.043 13	0.906 6	0.000 1	0.052 6	0.000 10	0.384 12	0.330 12	0.342 8	0.100 12	0.223 7	0.183 13	0.112 7	0.476 6	0.313 7	0.130 9	0.196 3	0.112 12	0.370 11	0.000 3	0.234 12	0.071 9	0.160 7	0.403 6	0.398 13	0.492 14	0.197 6	0.076 13	0.272 5	0.000 1	0.200 16	0.560 10	0.735 7	0.000 1	0.000 11	0.000 12	0.110 8	0.002 6	0.021 8	0.412 5	0.000 12	0.000 8	0.000 11	0.000 1	0.000 5	0.794 11	0.000 1	0.445 5	0.000 1	0.022 10	0.509 7	0.000 1	0.517 13	0.000 1	0.000 1	0.001 17	0.245 7	0.915 5	0.024 6	0.089 7	0.000 1	0.262 3	0.000 1	0.103 11	0.524 7	0.392 11	0.515 4	0.013 17	0.251 4	0.411 13	0.662 4	0.001 11	0.000 1	0.473 12	0.000 2	0.000 2	0.150 5	0.699 9	0.000 3	0.000 1	0.000 1	0.166 6	0.000 7	0.024 2	0.000 11	0.000 1

PPT-SpUNet-F.T.	0.332 12	0.556 6	0.270 7	0.123 14	0.816 6	0.682 9	0.946 6	0.549 10	0.657 8	0.756 5	0.459 7	0.376 9	0.550 11	0.001 12	0.807 4	0.616 4	0.727 12	0.267 9	0.691 5	0.942 11	0.530 9	0.872 5	0.874 8	0.330 8	0.542 14	0.374 8	0.792 5	0.400 14	0.673 4	0.572 7	0.433 2	0.793 9	0.623 7	0.008 16	0.351 10	0.594 8	0.000 1	0.783 13	0.876 7	0.833 4	0.213 6	0.000 7	0.537 8	0.091 7	0.519 4	0.304 8	0.620 8	0.942 2	0.264 5	0.124 8	0.855 7	0.695 5	0.086 8	0.646 10	0.506 16	0.658 7	0.535 6	0.715 4	0.314 2	0.000 3	0.241 4	0.608 3	0.897 2	0.359 8	0.858 11	0.000 7	0.076 17	0.611 11	0.392 12	0.509 7	0.378 6	0.000 1	0.579 4	0.565 15	0.000 4	0.000 9	0.000 1	0.000 6	0.755 7	0.806 9	0.661 4	0.572 13	0.350 9	0.181 7	0.660 12	0.300 14	0.000 3	0.000 7	0.000 1	0.023 12	0.000 4	0.042 14	0.930 4	0.000 1	0.000 10	0.077 7	0.584 9	0.392 10	0.339 9	0.185 10	0.171 12	0.308 2	0.006 13	0.563 3	0.256 8	0.150 4	0.000 4	0.002 16	0.345 12	0.000 3	0.045 14	0.197 5	0.063 11	0.323 11	0.453 4	0.600 8	0.163 11	0.037 15	0.349 4	0.000 1	0.672 3	0.679 4	0.753 5	0.000 1	0.000 11	0.000 12	0.117 6	0.000 7	0.000 10	0.291 8	0.000 12	0.000 8	0.039 7	0.000 1	0.000 5	0.899 2	0.000 1	0.374 11	0.000 1	0.000 12	0.545 5	0.000 1	0.634 5	0.000 1	0.000 1	0.074 13	0.223 8	0.914 6	0.000 9	0.021 9	0.000 1	0.000 9	0.000 1	0.112 6	0.498 10	0.649 1	0.383 10	0.095 2	0.135 12	0.449 11	0.432 12	0.008 9	0.000 1	0.518 7	0.000 2	0.000 2	0.000 11	0.796 5	0.000 3	0.000 1	0.000 1	0.138 13	0.000 7	0.000 3	0.000 11	0.000 1
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer ScanNet200	0.326 13	0.539 10	0.265 10	0.131 12	0.806 8	0.670 12	0.943 9	0.535 12	0.662 4	0.705 16	0.423 9	0.407 6	0.505 13	0.003 11	0.765 13	0.582 7	0.686 15	0.227 16	0.680 8	0.943 10	0.601 2	0.854 10	0.892 6	0.335 6	0.417 17	0.357 10	0.724 10	0.453 11	0.632 7	0.596 5	0.432 3	0.783 11	0.512 16	0.021 12	0.244 15	0.637 2	0.000 1	0.787 12	0.873 9	0.743 11	0.000 17	0.000 7	0.534 9	0.110 4	0.499 6	0.289 10	0.626 7	0.620 12	0.168 15	0.204 4	0.849 10	0.679 8	0.117 5	0.633 11	0.684 3	0.650 8	0.552 5	0.684 9	0.312 3	0.000 3	0.175 11	0.429 11	0.865 5	0.413 4	0.837 12	0.000 7	0.145 8	0.626 9	0.451 8	0.487 11	0.513 3	0.000 1	0.529 7	0.613 12	0.000 4	0.033 6	0.000 1	0.000 6	0.828 5	0.871 3	0.622 9	0.587 9	0.411 7	0.137 10	0.645 14	0.343 12	0.000 3	0.000 7	0.000 1	0.022 13	0.000 4	0.026 17	0.829 11	0.000 1	0.022 8	0.089 6	0.842 4	0.253 14	0.318 11	0.296 2	0.178 11	0.291 3	0.224 3	0.584 2	0.200 14	0.132 8	0.000 4	0.128 11	0.227 13	0.000 3	0.230 13	0.047 11	0.149 8	0.331 10	0.412 9	0.618 7	0.164 10	0.102 11	0.522 3	0.000 1	0.655 4	0.378 12	0.469 15	0.000 1	0.000 11	0.000 12	0.105 9	0.000 7	0.000 10	0.483 3	0.000 12	0.000 8	0.028 8	0.000 1	0.000 5	0.906 1	0.000 1	0.339 15	0.000 1	0.000 12	0.457 9	0.000 1	0.612 8	0.000 1	0.000 1	0.408 4	0.000 15	0.900 10	0.000 9	0.000 11	0.000 1	0.029 8	0.000 1	0.074 15	0.455 15	0.479 6	0.427 7	0.079 9	0.140 8	0.496 8	0.414 14	0.022 6	0.000 1	0.471 13	0.000 2	0.000 2	0.000 11	0.722 7	0.000 3	0.000 1	0.000 1	0.138 13	0.000 7	0.000 3	0.000 11	0.000 1
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
AWCS	0.305 14	0.508 14	0.225 14	0.142 11	0.782 14	0.634 17	0.937 14	0.489 15	0.578 14	0.721 12	0.364 15	0.355 11	0.515 12	0.023 9	0.764 14	0.523 11	0.707 14	0.264 11	0.633 14	0.922 14	0.507 13	0.886 1	0.804 15	0.179 15	0.436 16	0.300 12	0.656 16	0.529 3	0.501 15	0.394 13	0.296 16	0.820 5	0.603 9	0.131 3	0.179 17	0.619 3	0.000 1	0.707 16	0.865 13	0.773 6	0.171 7	0.010 6	0.484 14	0.063 13	0.463 13	0.254 13	0.332 16	0.649 11	0.220 11	0.100 11	0.729 15	0.613 15	0.071 13	0.582 14	0.628 7	0.702 4	0.424 15	0.749 2	0.137 15	0.000 3	0.142 13	0.360 13	0.863 6	0.305 14	0.877 10	0.000 7	0.173 5	0.606 12	0.337 14	0.478 12	0.154 15	0.000 1	0.253 14	0.664 8	0.000 4	0.000 9	0.000 1	0.000 6	0.626 13	0.782 10	0.302 16	0.602 7	0.185 13	0.282 6	0.651 13	0.317 13	0.000 3	0.000 7	0.000 1	0.022 13	0.000 4	0.154 2	0.876 9	0.000 1	0.014 9	0.063 9	0.029 17	0.553 7	0.467 3	0.084 13	0.124 14	0.157 16	0.049 12	0.373 13	0.252 9	0.097 15	0.000 4	0.219 7	0.542 3	0.000 3	0.392 7	0.172 8	0.000 15	0.339 9	0.417 8	0.533 13	0.093 15	0.115 10	0.195 9	0.000 1	0.516 10	0.288 15	0.741 6	0.000 1	0.001 10	0.233 9	0.056 14	0.000 7	0.159 6	0.334 7	0.077 9	0.000 8	0.000 11	0.000 1	0.000 5	0.749 13	0.000 1	0.411 8	0.000 1	0.008 11	0.452 10	0.000 1	0.595 10	0.000 1	0.000 1	0.220 10	0.006 12	0.894 12	0.006 8	0.000 11	0.000 1	0.000 9	0.000 1	0.112 6	0.504 8	0.404 10	0.551 3	0.093 4	0.129 14	0.484 10	0.381 17	0.000 12	0.000 1	0.396 14	0.000 2	0.000 2	0.620 3	0.402 17	0.000 3	0.000 1	0.000 1	0.142 9	0.000 7	0.000 3	0.512 9	0.000 1
: Long-Tailed 3D Semantic Segmentation with Adaptive Weight Constraint and Sampling. ICRA 2024
LGround	0.272 15	0.485 15	0.184 15	0.106 15	0.778 15	0.676 11	0.932 15	0.479 17	0.572 15	0.718 14	0.399 12	0.265 15	0.453 16	0.085 3	0.745 15	0.446 15	0.726 13	0.232 15	0.622 15	0.901 15	0.512 11	0.826 15	0.786 16	0.178 16	0.549 12	0.277 15	0.659 15	0.381 15	0.518 14	0.295 17	0.323 14	0.777 12	0.599 10	0.028 10	0.321 11	0.363 16	0.000 1	0.708 15	0.858 14	0.746 10	0.063 15	0.022 5	0.457 15	0.077 10	0.476 11	0.243 15	0.402 14	0.397 17	0.233 10	0.077 15	0.720 17	0.610 16	0.103 6	0.629 12	0.437 17	0.626 11	0.446 14	0.702 6	0.190 13	0.005 1	0.058 16	0.322 14	0.702 16	0.244 15	0.768 14	0.000 7	0.134 12	0.552 15	0.279 16	0.395 14	0.147 16	0.000 1	0.207 15	0.612 13	0.000 4	0.000 9	0.000 1	0.000 6	0.658 11	0.566 14	0.323 15	0.525 15	0.229 12	0.179 8	0.467 17	0.154 16	0.000 3	0.002 5	0.000 1	0.051 1	0.000 4	0.127 4	0.703 12	0.000 1	0.000 10	0.216 1	0.112 16	0.358 11	0.547 2	0.187 9	0.092 16	0.156 17	0.055 10	0.296 15	0.252 9	0.143 5	0.000 4	0.014 14	0.398 7	0.000 3	0.028 16	0.173 7	0.000 15	0.265 16	0.348 14	0.415 16	0.179 8	0.019 16	0.218 8	0.000 1	0.597 8	0.274 16	0.565 13	0.000 1	0.012 8	0.000 12	0.039 16	0.022 3	0.000 10	0.117 15	0.000 12	0.000 8	0.000 11	0.000 1	0.000 5	0.324 16	0.000 1	0.384 9	0.000 1	0.000 12	0.251 17	0.000 1	0.566 11	0.000 1	0.000 1	0.066 14	0.404 4	0.886 13	0.199 2	0.000 11	0.000 1	0.059 7	0.000 1	0.136 1	0.540 5	0.127 17	0.295 11	0.085 7	0.143 6	0.514 7	0.413 15	0.000 12	0.000 1	0.498 8	0.000 2	0.000 2	0.000 11	0.623 12	0.000 3	0.000 1	0.000 1	0.132 15	0.000 7	0.000 3	0.000 11	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild. arXiv
Minkowski 34D	0.253 16	0.463 16	0.154 17	0.102 16	0.771 16	0.650 16	0.932 15	0.483 16	0.571 16	0.710 15	0.331 16	0.250 16	0.492 14	0.044 6	0.703 16	0.419 17	0.606 17	0.227 16	0.621 16	0.865 17	0.531 8	0.771 17	0.813 14	0.291 11	0.484 15	0.242 16	0.612 17	0.282 17	0.440 17	0.351 15	0.299 15	0.622 16	0.593 11	0.027 11	0.293 13	0.310 17	0.000 1	0.757 14	0.858 14	0.737 12	0.150 9	0.164 1	0.368 17	0.084 8	0.381 16	0.142 17	0.357 15	0.720 10	0.214 12	0.092 14	0.724 16	0.596 17	0.056 14	0.655 9	0.525 14	0.581 15	0.352 17	0.594 15	0.056 17	0.000 3	0.014 17	0.224 15	0.772 15	0.205 17	0.720 16	0.000 7	0.159 7	0.531 16	0.163 17	0.294 16	0.136 17	0.000 1	0.169 16	0.589 14	0.000 4	0.000 9	0.000 1	0.002 4	0.663 10	0.466 17	0.265 17	0.582 10	0.337 10	0.016 15	0.559 15	0.084 17	0.000 3	0.000 7	0.000 1	0.036 5	0.000 4	0.125 5	0.670 13	0.000 1	0.102 3	0.071 8	0.164 15	0.406 9	0.386 7	0.046 16	0.068 17	0.159 15	0.117 6	0.284 16	0.111 16	0.094 16	0.000 4	0.000 17	0.197 16	0.000 3	0.044 15	0.013 15	0.002 14	0.228 17	0.307 17	0.588 11	0.025 17	0.545 5	0.134 15	0.000 1	0.655 4	0.302 14	0.282 17	0.000 1	0.060 2	0.000 12	0.035 17	0.000 7	0.000 10	0.097 17	0.000 12	0.000 8	0.005 10	0.000 1	0.000 5	0.096 17	0.000 1	0.334 16	0.000 1	0.000 12	0.274 16	0.000 1	0.513 14	0.000 1	0.000 1	0.280 8	0.194 9	0.897 11	0.000 9	0.000 11	0.000 1	0.000 9	0.000 1	0.108 9	0.279 17	0.189 16	0.141 17	0.059 14	0.272 2	0.307 17	0.445 10	0.003 10	0.000 1	0.353 15	0.000 2	0.026 1	0.000 11	0.581 15	0.001 2	0.000 1	0.000 1	0.093 17	0.002 6	0.000 3	0.000 11	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
CSC-Pretrain	0.249 17	0.455 17	0.171 16	0.079 17	0.766 17	0.659 15	0.930 17	0.494 14	0.542 17	0.700 17	0.314 17	0.215 17	0.430 17	0.121 1	0.697 17	0.441 16	0.683 16	0.235 14	0.609 17	0.895 16	0.476 15	0.816 16	0.770 17	0.186 14	0.634 6	0.216 17	0.734 9	0.340 16	0.471 16	0.307 16	0.293 17	0.591 17	0.542 15	0.076 7	0.205 16	0.464 14	0.000 1	0.484 17	0.832 16	0.766 7	0.052 16	0.000 7	0.413 16	0.059 14	0.418 15	0.222 16	0.318 17	0.609 14	0.206 13	0.112 9	0.743 14	0.625 14	0.076 9	0.579 15	0.548 13	0.590 14	0.371 16	0.552 17	0.081 16	0.003 2	0.142 13	0.201 16	0.638 17	0.233 16	0.686 17	0.000 7	0.142 9	0.444 17	0.375 13	0.247 17	0.198 14	0.000 1	0.128 17	0.454 17	0.019 2	0.097 1	0.000 1	0.000 6	0.553 14	0.557 15	0.373 13	0.545 14	0.164 14	0.014 16	0.547 16	0.174 15	0.000 3	0.002 5	0.000 1	0.037 4	0.000 4	0.063 11	0.664 14	0.000 1	0.000 10	0.130 2	0.170 14	0.152 16	0.335 10	0.079 14	0.110 15	0.175 14	0.098 9	0.175 17	0.166 15	0.045 17	0.207 2	0.014 14	0.465 5	0.000 3	0.001 17	0.001 17	0.046 12	0.299 15	0.327 16	0.537 12	0.033 16	0.012 17	0.186 10	0.000 1	0.205 15	0.377 13	0.463 16	0.000 1	0.058 3	0.000 12	0.055 15	0.041 1	0.000 10	0.105 16	0.000 12	0.000 8	0.000 11	0.000 1	0.000 5	0.398 15	0.000 1	0.308 17	0.000 1	0.000 12	0.319 15	0.000 1	0.543 12	0.000 1	0.000 1	0.062 15	0.004 13	0.862 15	0.000 9	0.000 11	0.000 1	0.000 9	0.000 1	0.123 5	0.316 16	0.225 15	0.250 13	0.094 3	0.180 5	0.332 14	0.441 11	0.000 12	0.000 1	0.310 16	0.000 2	0.000 2	0.000 11	0.592 14	0.000 3	0.000 1	0.000 1	0.203 3	0.000 7	0.000 3	0.000 11	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021

This table lists the benchmark results for the ScanNet200 3D semantic instance scenario.

Method	avg ap 50%	head ap 50%	common ap 50%	tail ap 50%	chair	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

Mask3D Scannet200	0.388 1	0.542 1	0.357 2	0.237 2	0.808 2	0.676 2	0.741 2	0.832 4	0.496 2	0.151 4	0.628 2	0.021 2	0.955 1	0.578 1	0.753 1	0.612 1	0.591 1	0.822 6	0.609 4	0.926 1	0.614 3	0.291 1	0.725 4	0.163 2	0.890 2	0.380 6	0.615 1	0.517 2	0.130 4	0.806 1	0.857 2	0.024 3	0.511 2	0.412 6	0.226 1	0.597 3	0.756 1	1.000 1	0.111 2	0.792 1	0.736 2	0.091 2	0.610 1	0.527 3	0.323 5	1.000 1	0.504 2	0.063 3	1.000 1	0.853 2	0.010 2	0.974 3	0.839 2	0.667 2	0.301 2	0.883 1	0.266 2	0.039 1	0.640 1	0.311 2	0.739 2	0.463 1	1.000 1	0.000 2	0.287 2	0.715 2	0.313 3	0.600 1	1.000 1	0.027 1	0.076 5	0.502 6	0.500 1	0.409 1	0.000 1	0.194 2	0.125 3	0.500 1	0.491 2	0.748 1	0.050 5	0.042 2	0.776 3	0.352 2	0.008 1	0.000 2	0.033 1	0.254 1	0.000 1	0.005 3	0.552 2	0.008 2	0.020 2	0.750 1	0.500 2	0.409 2	0.065 3	0.511 1	0.107 2	0.178 3	0.000 2	1.000 1	0.400 1	0.016 2	0.000 1	0.400 1	0.571 1	0.000 1	0.060 3	0.044 3	0.000 2	0.514 1	0.278 2	1.000 1	0.258 2	0.017 4	0.125 6	0.000 1	0.792 3	0.399 3	1.000 1	0.000 1	0.013 2	0.265 2	0.018 3	0.000 2	1.000 1	0.335 1	0.381 1	0.500 1	0.250 1	0.004 2	0.000 1	0.727 1	0.000 1	0.497 1	0.000 1	0.188 1	0.677 3	0.000 1	0.708 2	0.000 1	0.000 1	0.945 1	0.391 1	0.123 5	0.000 1	0.028 2	0.000 1	1.000 1	0.000 1	0.099 1	0.451 1	0.400 2	0.668 1	0.573 1	0.606 1	0.077 6	0.003 5	0.004 1	0.000 1	0.042 4	0.000 1	0.000 1	1.000 1	1.000 1	0.000 2	0.042 1	0.000 2	0.200 2	0.302 1	0.000 2	1.000 1	0.000 1
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
ODIN - Ins200	0.381 2	0.507 2	0.375 1	0.237 1	0.653 6	0.614 3	0.780 1	0.744 6	0.566 1	0.328 1	0.446 3	0.003 3	0.853 2	0.496 2	0.582 3	0.448 6	0.434 3	0.938 5	0.682 2	0.782 3	0.494 5	0.274 2	0.723 5	0.269 1	0.694 6	0.393 5	0.511 2	0.695 1	0.227 1	0.550 5	0.795 3	0.039 2	0.602 1	0.638 1	0.000 3	0.734 1	0.585 3	0.667 4	0.163 1	0.500 3	0.769 1	0.108 1	0.484 4	0.569 1	0.688 1	1.000 1	0.665 1	0.093 2	1.000 1	0.863 1	0.049 1	0.667 5	0.887 1	0.778 1	0.422 1	0.786 5	0.550 1	0.000 3	0.542 3	0.028 5	0.667 3	0.428 2	1.000 1	0.125 1	0.208 5	0.530 4	0.406 2	0.337 2	0.000 5	0.000 2	0.585 1	0.742 2	0.500 1	0.000 2	0.000 1	0.472 1	1.000 1	0.417 4	0.563 1	0.631 3	0.275 1	0.000 3	0.800 1	0.841 1	0.000 2	0.083 1	0.000 3	0.174 3	0.000 1	0.055 2	0.667 1	0.000 3	0.000 3	0.250 3	1.000 1	0.286 3	0.058 4	0.391 3	0.209 1	0.313 1	0.167 1	0.278 6	0.200 3	0.083 1	0.000 1	0.200 3	0.264 2	0.000 1	0.250 2	0.714 1	0.500 1	0.196 2	0.333 1	0.500 4	0.750 1	0.668 1	0.500 1	0.000 1	0.500 4	0.333 4	1.000 1	0.000 1	0.000 3	0.438 1	0.500 1	0.000 2	1.000 1	0.333 2	0.226 2	0.250 3	0.250 1	0.000 3	0.000 1	0.668 2	0.000 1	0.174 5	0.000 1	0.000 3	0.750 1	0.000 1	0.667 3	0.000 1	0.000 1	0.638 3	0.333 2	0.579 2	0.000 1	0.333 1	0.000 1	1.000 1	0.000 1	0.063 3	0.385 2	0.600 1	0.647 2	0.066 3	0.264 4	0.469 3	0.246 2	0.000 2	0.000 1	0.264 1	0.000 1	0.000 1	0.000 2	1.000 1	0.125 1	0.000 2	0.000 2	0.200 2	0.000 2	0.000 2	1.000 1	0.000 1

TD3D Scannet200	0.320 3	0.501 3	0.264 3	0.164 3	0.841 1	0.679 1	0.716 3	0.879 2	0.280 4	0.192 2	0.634 1	0.231 1	0.733 4	0.459 3	0.565 4	0.498 5	0.560 2	1.000 1	0.686 1	0.890 2	0.708 1	0.123 5	0.820 1	0.152 3	0.967 1	0.456 1	0.458 3	0.387 3	0.194 2	0.435 6	0.906 1	0.077 1	0.396 3	0.509 2	0.217 2	0.715 2	0.619 2	1.000 1	0.099 3	0.792 1	0.513 3	0.062 3	0.506 3	0.549 2	0.605 2	1.000 1	0.123 5	0.106 1	1.000 1	0.744 5	0.000 3	1.000 1	0.504 6	0.525 3	0.185 3	0.790 4	0.101 3	0.008 2	0.587 2	0.356 1	0.817 1	0.083 6	1.000 1	0.000 2	0.621 1	0.842 1	0.415 1	0.268 5	0.083 4	0.000 2	0.098 4	0.881 1	0.125 3	0.000 2	0.000 1	0.000 3	0.000 4	0.125 5	0.332 4	0.448 6	0.202 3	0.196 1	0.798 2	0.264 3	0.000 2	0.000 2	0.017 2	0.233 2	0.000 1	0.063 1	0.333 3	0.038 1	0.111 1	0.250 3	0.000 3	0.516 1	0.208 1	0.470 2	0.094 4	0.218 2	0.000 2	0.667 2	0.033 6	0.000 3	0.000 1	0.400 1	0.156 3	0.000 1	0.267 1	0.226 2	0.000 2	0.104 3	0.159 3	0.299 6	0.095 4	0.458 2	0.500 1	0.000 1	1.000 1	0.472 1	0.792 4	0.000 1	0.022 1	0.061 3	0.250 2	0.008 1	0.250 3	0.333 2	0.143 3	0.396 2	0.049 3	0.012 1	0.000 1	0.283 5	0.000 1	0.241 4	0.000 1	0.101 2	0.331 5	0.000 1	0.629 4	0.000 1	0.000 1	0.857 2	0.222 4	0.677 1	0.000 1	0.003 3	0.000 1	0.000 3	0.000 1	0.076 2	0.252 4	0.400 2	0.431 3	0.061 4	0.328 3	0.331 5	0.500 1	0.000 2	0.000 1	0.167 2	0.000 1	0.000 1	0.000 2	0.500 3	0.000 2	0.000 2	1.000 1	0.542 1	0.000 2	0.063 1	0.000 3	0.000 1
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
LGround Inst.	0.246 4	0.413 4	0.170 4	0.130 4	0.754 3	0.541 4	0.682 5	0.903 1	0.264 5	0.164 3	0.234 4	0.000 4	0.681 5	0.452 4	0.464 6	0.541 4	0.399 4	1.000 1	0.637 3	0.772 4	0.588 4	0.190 3	0.589 6	0.081 4	0.857 3	0.426 3	0.373 4	0.318 4	0.135 3	0.690 2	0.653 5	0.000 4	0.159 5	0.500 3	0.000 3	0.581 4	0.387 5	1.000 1	0.046 4	0.000 4	0.402 4	0.003 6	0.455 6	0.196 5	0.571 3	1.000 1	0.270 4	0.003 6	0.530 6	0.748 4	0.000 3	0.744 4	0.575 4	0.511 4	0.112 4	0.815 2	0.067 4	0.000 3	0.400 4	0.167 3	0.667 3	0.241 3	1.000 1	0.000 2	0.208 4	0.660 3	0.125 5	0.317 3	0.000 5	0.000 2	0.100 3	0.561 5	0.000 4	0.000 2	0.000 1	0.000 3	1.000 1	0.500 1	0.344 3	0.568 5	0.167 4	0.000 3	0.706 4	0.068 4	0.000 2	0.000 2	0.000 3	0.063 4	0.000 1	0.000 4	0.056 5	0.000 3	0.000 3	0.500 2	0.000 3	0.143 6	0.017 5	0.125 4	0.097 3	0.164 4	0.000 2	0.582 4	0.400 1	0.000 3	0.000 1	0.000 5	0.083 5	0.000 1	0.000 4	0.000 4	0.000 2	0.025 4	0.156 4	0.533 3	0.250 3	0.200 3	0.500 1	0.000 1	1.000 1	0.333 4	1.000 1	0.000 1	0.000 3	0.000 4	0.000 4	0.000 2	0.000 4	0.333 2	0.000 4	0.000 4	0.000 4	0.000 3	0.000 1	0.400 4	0.000 1	0.364 2	0.000 1	0.000 3	0.500 4	0.000 1	0.511 5	0.000 1	0.000 1	0.286 4	0.333 2	0.000 6	0.000 1	0.000 4	0.000 1	0.000 3	0.000 1	0.034 4	0.111 6	0.000 4	0.333 5	0.031 6	0.000 5	0.750 1	0.125 3	0.000 2	0.000 1	0.151 3	0.000 1	0.000 1	0.000 2	0.500 3	0.000 2	0.000 2	0.000 2	0.000 6	0.000 2	0.000 2	0.000 3	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild.
CSC-Pretrain Inst.	0.209 5	0.361 6	0.157 5	0.085 5	0.700 5	0.248 6	0.634 6	0.776 5	0.322 3	0.135 6	0.103 6	0.000 4	0.524 6	0.364 6	0.618 2	0.592 3	0.381 6	0.997 3	0.589 5	0.747 5	0.340 6	0.109 6	0.768 2	0.059 6	0.702 5	0.448 2	0.188 6	0.149 6	0.091 6	0.636 3	0.573 6	0.000 4	0.246 4	0.500 3	0.000 3	0.450 6	0.405 4	0.667 4	0.006 6	0.000 4	0.356 5	0.007 4	0.506 2	0.420 4	0.340 4	0.667 6	0.294 3	0.004 5	0.571 5	0.748 3	0.000 3	1.000 1	0.573 5	0.502 5	0.094 5	0.807 3	0.000 5	0.000 3	0.400 4	0.000 6	0.278 6	0.228 4	1.000 1	0.000 2	0.115 6	0.432 5	0.198 4	0.050 6	0.125 2	0.000 2	0.000 6	0.573 4	0.000 4	0.000 2	0.000 1	0.000 3	0.000 4	0.125 5	0.312 5	0.610 4	0.221 2	0.000 3	0.667 5	0.050 5	0.000 2	0.000 2	0.000 3	0.032 6	0.000 1	0.000 4	0.083 4	0.000 3	0.000 3	0.000 5	0.000 3	0.220 5	0.000 6	0.125 4	0.000 6	0.111 6	0.000 2	0.667 2	0.200 3	0.000 3	0.000 1	0.000 5	0.110 4	0.000 1	0.000 4	0.000 4	0.000 2	0.000 5	0.053 6	0.500 4	0.000 6	0.000 5	0.500 1	0.000 1	0.500 4	0.333 4	0.500 5	0.000 1	0.000 3	0.000 4	0.000 4	0.000 2	0.000 4	0.000 6	0.000 4	0.000 4	0.000 4	0.000 3	0.000 1	0.600 3	0.000 1	0.364 2	0.000 1	0.000 3	0.750 1	0.000 1	0.833 1	0.000 1	0.000 1	0.143 6	0.000 6	0.396 3	0.000 1	0.000 4	0.000 1	0.000 3	0.000 1	0.021 6	0.221 5	0.000 4	0.093 6	0.055 5	0.451 2	0.677 2	0.125 3	0.000 2	0.000 1	0.028 5	0.000 1	0.000 1	0.000 2	0.500 3	0.000 2	0.000 2	0.000 2	0.050 5	0.000 2	0.000 2	0.000 3	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
Minkowski 34D Inst.	0.203 6	0.369 5	0.134 6	0.078 6	0.706 4	0.382 5	0.693 4	0.845 3	0.221 6	0.150 5	0.158 5	0.000 4	0.746 3	0.369 5	0.545 5	0.595 2	0.387 5	0.997 3	0.413 6	0.720 6	0.636 2	0.165 4	0.732 3	0.070 5	0.851 4	0.402 4	0.251 5	0.313 5	0.123 5	0.583 4	0.696 4	0.000 4	0.051 6	0.500 3	0.000 3	0.500 5	0.372 6	0.667 4	0.009 5	0.000 4	0.307 6	0.003 5	0.479 5	0.107 6	0.226 6	0.903 5	0.109 6	0.031 4	0.981 4	0.726 6	0.000 3	0.522 6	0.669 3	0.282 6	0.052 6	0.778 6	0.000 5	0.000 3	0.400 4	0.074 4	0.333 5	0.218 5	1.000 1	0.000 2	0.250 3	0.406 6	0.118 6	0.317 3	0.100 3	0.000 2	0.191 2	0.596 3	0.000 4	0.000 2	0.000 1	0.000 3	0.000 4	0.500 1	0.178 6	0.701 2	0.000 6	0.000 3	0.522 6	0.018 6	0.000 2	0.000 2	0.000 3	0.060 5	0.000 1	0.000 4	0.033 6	0.000 3	0.000 3	0.000 5	0.000 3	0.281 4	0.100 2	0.000 6	0.090 5	0.133 5	0.000 2	0.422 5	0.050 5	0.000 3	0.000 1	0.200 3	0.000 6	0.000 1	0.000 4	0.000 4	0.000 2	0.000 5	0.123 5	0.677 2	0.021 5	0.000 5	0.500 1	0.000 1	0.500 4	0.442 2	0.125 6	0.000 1	0.000 3	0.000 4	0.000 4	0.000 2	0.000 4	0.056 5	0.000 4	0.000 4	0.000 4	0.000 3	0.000 1	0.200 6	0.000 1	0.143 6	0.000 1	0.000 3	0.250 6	0.000 1	0.511 5	0.000 1	0.000 1	0.286 4	0.083 5	0.396 3	0.000 1	0.000 4	0.000 1	0.000 3	0.000 1	0.025 5	0.300 3	0.000 4	0.371 4	0.070 2	0.000 5	0.385 4	0.000 6	0.000 2	0.000 1	0.000 6	0.000 1	0.000 1	0.000 2	0.500 3	0.000 2	0.000 2	0.000 2	0.200 2	0.000 2	0.000 2	0.000 3	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019

ScanNet Benchmark

This table lists the benchmark results for the 3D semantic label scenario.

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

PTv3-PPT-ALC	0.798 1	0.911 11	0.812 23	0.854 8	0.770 12	0.856 15	0.555 17	0.943 1	0.660 26	0.735 2	0.979 1	0.606 7	0.492 1	0.792 4	0.934 4	0.841 2	0.819 6	0.716 9	0.947 10	0.906 1	0.822 1
Guangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum: ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding. CVPR 2025
DITR ScanNet	0.797 2	0.727 77	0.869 1	0.882 1	0.785 6	0.868 7	0.578 5	0.943 1	0.744 1	0.727 3	0.979 1	0.627 2	0.364 9	0.824 1	0.949 2	0.779 15	0.844 1	0.757 1	0.982 1	0.905 2	0.802 3
Karim Abou Zeid, Kadir Yilmaz, Daan de Geus, Alexander Hermans, David Adrian, Timm Linder, Bastian Leibe: DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation.
PTv3 ScanNet	0.794 3	0.941 3	0.813 22	0.851 11	0.782 7	0.890 2	0.597 1	0.916 6	0.696 11	0.713 5	0.979 1	0.635 1	0.384 3	0.793 3	0.907 10	0.821 5	0.790 37	0.696 14	0.967 4	0.903 3	0.805 2
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
PonderV2	0.785 4	0.978 1	0.800 31	0.833 30	0.788 4	0.853 20	0.545 21	0.910 9	0.713 3	0.705 6	0.979 1	0.596 9	0.390 2	0.769 15	0.832 45	0.821 5	0.792 36	0.730 2	0.975 2	0.897 6	0.785 7
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
Mix3D	0.781 5	0.964 2	0.855 2	0.843 20	0.781 8	0.858 13	0.575 8	0.831 40	0.685 17	0.714 4	0.979 1	0.594 10	0.310 31	0.801 2	0.892 19	0.841 2	0.819 6	0.723 6	0.940 15	0.887 8	0.725 29
Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann: Mix3D: Out-of-Context Data Augmentation for 3D Scenes. 3DV 2021 (Oral)
Swin3D	0.779 6	0.861 24	0.818 17	0.836 27	0.790 3	0.875 4	0.576 7	0.905 10	0.704 7	0.739 1	0.969 12	0.611 3	0.349 12	0.756 25	0.958 1	0.702 52	0.805 20	0.708 10	0.916 39	0.898 5	0.801 4

TTT-KD	0.773 7	0.646 98	0.818 17	0.809 42	0.774 10	0.878 3	0.581 3	0.943 1	0.687 15	0.704 7	0.978 6	0.607 6	0.336 20	0.775 11	0.912 8	0.838 4	0.823 4	0.694 15	0.967 4	0.899 4	0.794 6
Lisa Weijler, Muhammad Jehanzeb Mirza, Leon Sick, Can Ekkazan, Pedro Hermosilla: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models.
ResLFE_HDS	0.772 8	0.939 4	0.824 7	0.854 8	0.771 11	0.840 35	0.564 13	0.900 12	0.686 16	0.677 14	0.961 18	0.537 36	0.348 13	0.769 15	0.903 12	0.785 13	0.815 9	0.676 26	0.939 16	0.880 13	0.772 11

PPT-SpUNet-Joint	0.766 9	0.932 5	0.794 37	0.829 32	0.751 26	0.854 18	0.540 25	0.903 11	0.630 39	0.672 18	0.963 16	0.565 26	0.357 10	0.788 5	0.900 14	0.737 31	0.802 21	0.685 20	0.950 8	0.887 8	0.780 8
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer	0.766 9	0.925 7	0.808 27	0.849 13	0.786 5	0.846 30	0.566 12	0.876 19	0.690 13	0.674 17	0.960 19	0.576 22	0.226 74	0.753 27	0.904 11	0.777 16	0.815 9	0.722 7	0.923 31	0.877 17	0.776 10
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
CU-Hybrid Net	0.764 11	0.924 8	0.819 14	0.840 23	0.757 21	0.853 20	0.580 4	0.848 32	0.709 5	0.643 28	0.958 24	0.587 16	0.295 39	0.753 27	0.884 23	0.758 23	0.815 9	0.725 5	0.927 27	0.867 28	0.743 20

OccuSeg+Semantic	0.764 11	0.758 62	0.796 35	0.839 24	0.746 30	0.907 1	0.562 14	0.850 31	0.680 19	0.672 18	0.978 6	0.610 4	0.335 22	0.777 9	0.819 49	0.847 1	0.830 3	0.691 17	0.972 3	0.885 10	0.727 27

O-CNN	0.762 13	0.924 8	0.823 8	0.844 19	0.770 12	0.852 22	0.577 6	0.847 34	0.711 4	0.640 32	0.958 24	0.592 11	0.217 80	0.762 20	0.888 20	0.758 23	0.813 13	0.726 4	0.932 25	0.868 27	0.744 19
Peng-Shuai Wang, Yang Liu, Yu-Xiao Guo, Chun-Yu Sun, Xin Tong: O-CNN: Octree-based Convolutional Neural Networks for 3D Shape Analysis. SIGGRAPH 2017
DiffSegNet	0.758 14	0.725 79	0.789 42	0.843 20	0.762 17	0.856 15	0.562 14	0.920 4	0.657 29	0.658 22	0.958 24	0.589 14	0.337 19	0.782 6	0.879 24	0.787 11	0.779 42	0.678 22	0.926 29	0.880 13	0.799 5

DTC	0.757 15	0.843 30	0.820 12	0.847 16	0.791 2	0.862 11	0.511 39	0.870 23	0.707 6	0.652 24	0.954 41	0.604 8	0.279 50	0.760 21	0.942 3	0.734 32	0.766 51	0.701 13	0.884 62	0.874 23	0.736 21

OA-CNN-L_ScanNet20	0.756 16	0.783 48	0.826 6	0.858 6	0.776 9	0.837 40	0.548 20	0.896 15	0.649 31	0.675 16	0.962 17	0.586 17	0.335 22	0.771 14	0.802 54	0.770 19	0.787 39	0.691 17	0.936 20	0.880 13	0.761 14

PNE	0.755 17	0.786 46	0.835 5	0.834 29	0.758 19	0.849 25	0.570 10	0.836 39	0.648 32	0.668 20	0.978 6	0.581 20	0.367 7	0.683 40	0.856 33	0.804 8	0.801 25	0.678 22	0.961 6	0.889 7	0.716 36
P. Hermosilla: Point Neighborhood Embeddings.
LSK3DNet	0.755 17	0.899 17	0.823 8	0.843 20	0.764 16	0.838 38	0.584 2	0.845 35	0.717 2	0.638 34	0.956 31	0.580 21	0.229 73	0.640 50	0.900 14	0.750 26	0.813 13	0.729 3	0.920 35	0.872 25	0.757 15
Tuo Feng, Wenguan Wang, Fan Ma, Yi Yang: LSK3DNet: Towards Effective and Efficient 3D Perception with Large Sparse Kernels. CVPR 2024
ConDaFormer	0.755 17	0.927 6	0.822 10	0.836 27	0.801 1	0.849 25	0.516 36	0.864 28	0.651 30	0.680 13	0.958 24	0.584 19	0.282 47	0.759 23	0.855 35	0.728 34	0.802 21	0.678 22	0.880 67	0.873 24	0.756 17
Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Guisong Xia, Dacheng Tao: ConDaFormer : Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding. Neurips, 2023
DMF-Net	0.752 20	0.906 15	0.793 39	0.802 48	0.689 47	0.825 53	0.556 16	0.867 24	0.681 18	0.602 51	0.960 19	0.555 32	0.365 8	0.779 8	0.859 30	0.747 27	0.795 33	0.717 8	0.917 38	0.856 36	0.764 13
C.Yang, Y.Yan, W.Zhao, J.Ye, X.Yang, A.Hussain, B.Dong, K.Huang: Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic Segmentation. ICONIP 2023
PointTransformerV2	0.752 20	0.742 69	0.809 26	0.872 2	0.758 19	0.860 12	0.552 18	0.891 17	0.610 46	0.687 8	0.960 19	0.559 30	0.304 34	0.766 18	0.926 6	0.767 20	0.797 29	0.644 39	0.942 13	0.876 20	0.722 32
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao: Point Transformer V2: Grouped Vector Attention and Partition-based Pooling. NeurIPS 2022
PointConvFormer	0.749 22	0.793 44	0.790 40	0.807 44	0.750 28	0.856 15	0.524 32	0.881 18	0.588 59	0.642 31	0.977 10	0.591 12	0.274 53	0.781 7	0.929 5	0.804 8	0.796 30	0.642 40	0.947 10	0.885 10	0.715 37
Wenxuan Wu, Qi Shan, Li Fuxin: PointConvFormer: Revenge of the Point-based Convolution.
BPNet	0.749 22	0.909 13	0.818 17	0.811 40	0.752 24	0.839 37	0.485 54	0.842 36	0.673 21	0.644 27	0.957 29	0.528 43	0.305 33	0.773 12	0.859 30	0.788 10	0.818 8	0.693 16	0.916 39	0.856 36	0.723 31
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MSP	0.748 24	0.623 101	0.804 29	0.859 5	0.745 31	0.824 55	0.501 43	0.912 8	0.690 13	0.685 10	0.956 31	0.567 25	0.320 28	0.768 17	0.918 7	0.720 39	0.802 21	0.676 26	0.921 33	0.881 12	0.779 9

StratifiedFormer	0.747 25	0.901 16	0.803 30	0.845 18	0.757 21	0.846 30	0.512 38	0.825 43	0.696 11	0.645 26	0.956 31	0.576 22	0.262 64	0.744 33	0.861 29	0.742 29	0.770 49	0.705 11	0.899 51	0.860 33	0.734 22
Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia: Stratified Transformer for 3D Point Cloud Segmentation. CVPR 2022
Virtual MVFusion	0.746 26	0.771 56	0.819 14	0.848 15	0.702 43	0.865 10	0.397 92	0.899 13	0.699 9	0.664 21	0.948 63	0.588 15	0.330 24	0.746 32	0.851 39	0.764 21	0.796 30	0.704 12	0.935 21	0.866 29	0.728 25
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
VMNet	0.746 26	0.870 22	0.838 3	0.858 6	0.729 36	0.850 24	0.501 43	0.874 20	0.587 60	0.658 22	0.956 31	0.564 27	0.299 36	0.765 19	0.900 14	0.716 42	0.812 15	0.631 45	0.939 16	0.858 34	0.709 38
Zeyu HU, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai: VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation. ICCV 2021 (Oral)
DiffSeg3D2	0.745 28	0.725 79	0.814 21	0.837 25	0.751 26	0.831 47	0.514 37	0.896 15	0.674 20	0.684 11	0.960 19	0.564 27	0.303 35	0.773 12	0.820 48	0.713 45	0.798 28	0.690 19	0.923 31	0.875 21	0.757 15

ODIN	0.744 29	0.658 94	0.752 65	0.870 3	0.714 40	0.843 33	0.569 11	0.919 5	0.703 8	0.622 41	0.949 60	0.591 12	0.343 15	0.736 34	0.784 56	0.816 7	0.838 2	0.672 31	0.918 37	0.854 40	0.725 29
Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki: ODIN: A Single Model for 2D and 3D Segmentation. CVPR 2024
Retro-FPN	0.744 29	0.842 31	0.800 31	0.767 62	0.740 32	0.836 42	0.541 23	0.914 7	0.672 22	0.626 38	0.958 24	0.552 33	0.272 55	0.777 9	0.886 22	0.696 53	0.801 25	0.674 29	0.941 14	0.858 34	0.717 34
Peng Xiang, Xin Wen, Yu-Shen Liu, Hui Zhang, Yi Fang, Zhizhong Han: Retrospective Feature Pyramid Network for Point Cloud Semantic Segmentation. ICCV 2023
EQ-Net	0.743 31	0.620 102	0.799 34	0.849 13	0.730 35	0.822 57	0.493 51	0.897 14	0.664 23	0.681 12	0.955 35	0.562 29	0.378 4	0.760 21	0.903 12	0.738 30	0.801 25	0.673 30	0.907 43	0.877 17	0.745 18
Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya JIa: A Unified Query-based Paradigm for Point Cloud Understanding. CVPR 2022
SAT	0.742 32	0.860 25	0.765 56	0.819 35	0.769 14	0.848 27	0.533 27	0.829 41	0.663 24	0.631 37	0.955 35	0.586 17	0.274 53	0.753 27	0.896 17	0.729 33	0.760 57	0.666 33	0.921 33	0.855 38	0.733 23

LRPNet	0.742 32	0.816 39	0.806 28	0.807 44	0.752 24	0.828 51	0.575 8	0.839 38	0.699 9	0.637 35	0.954 41	0.520 47	0.320 28	0.755 26	0.834 43	0.760 22	0.772 46	0.676 26	0.915 41	0.862 31	0.717 34

LargeKernel3D	0.739 34	0.909 13	0.820 12	0.806 46	0.740 32	0.852 22	0.545 21	0.826 42	0.594 58	0.643 28	0.955 35	0.541 35	0.263 63	0.723 38	0.858 32	0.775 18	0.767 50	0.678 22	0.933 23	0.848 44	0.694 43
Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia: LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs. CVPR 2023
RPN	0.736 35	0.776 52	0.790 40	0.851 11	0.754 23	0.854 18	0.491 53	0.866 26	0.596 57	0.686 9	0.955 35	0.536 37	0.342 16	0.624 57	0.869 26	0.787 11	0.802 21	0.628 46	0.927 27	0.875 21	0.704 40

MinkowskiNet	0.736 35	0.859 26	0.818 17	0.832 31	0.709 41	0.840 35	0.521 34	0.853 30	0.660 26	0.643 28	0.951 52	0.544 34	0.286 45	0.731 36	0.893 18	0.675 62	0.772 46	0.683 21	0.874 74	0.852 42	0.727 27
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
IPCA	0.731 37	0.890 18	0.837 4	0.864 4	0.726 37	0.873 5	0.530 31	0.824 44	0.489 94	0.647 25	0.978 6	0.609 5	0.336 20	0.624 57	0.733 64	0.758 23	0.776 44	0.570 72	0.949 9	0.877 17	0.728 25

MS-SFA-net	0.730 38	0.910 12	0.819 14	0.837 25	0.698 44	0.838 38	0.532 29	0.872 21	0.605 50	0.676 15	0.959 23	0.535 39	0.341 17	0.649 46	0.598 88	0.708 47	0.810 16	0.664 35	0.895 54	0.879 16	0.771 12

online3d	0.727 39	0.715 84	0.777 49	0.854 8	0.748 29	0.858 13	0.497 48	0.872 21	0.572 67	0.639 33	0.957 29	0.523 44	0.297 38	0.750 30	0.803 53	0.744 28	0.810 16	0.587 68	0.938 18	0.871 26	0.719 33

SparseConvNet	0.725 40	0.647 97	0.821 11	0.846 17	0.721 38	0.869 6	0.533 27	0.754 65	0.603 53	0.614 43	0.955 35	0.572 24	0.325 26	0.710 39	0.870 25	0.724 37	0.823 4	0.628 46	0.934 22	0.865 30	0.683 46

PointTransformer++	0.725 40	0.727 77	0.811 25	0.819 35	0.765 15	0.841 34	0.502 42	0.814 49	0.621 42	0.623 40	0.955 35	0.556 31	0.284 46	0.620 59	0.866 27	0.781 14	0.757 61	0.648 37	0.932 25	0.862 31	0.709 38

MatchingNet	0.724 42	0.812 41	0.812 23	0.810 41	0.735 34	0.834 44	0.495 50	0.860 29	0.572 67	0.602 51	0.954 41	0.512 49	0.280 49	0.757 24	0.845 41	0.725 36	0.780 41	0.606 56	0.937 19	0.851 43	0.700 42

INS-Conv-semantic	0.717 43	0.751 65	0.759 59	0.812 39	0.704 42	0.868 7	0.537 26	0.842 36	0.609 48	0.608 47	0.953 45	0.534 40	0.293 40	0.616 60	0.864 28	0.719 41	0.793 34	0.640 41	0.933 23	0.845 48	0.663 52

PointMetaBase	0.714 44	0.835 32	0.785 44	0.821 33	0.684 49	0.846 30	0.531 30	0.865 27	0.614 43	0.596 55	0.953 45	0.500 52	0.246 69	0.674 41	0.888 20	0.692 54	0.764 53	0.624 48	0.849 89	0.844 49	0.675 48

contrastBoundary	0.705 45	0.769 59	0.775 50	0.809 42	0.687 48	0.820 60	0.439 80	0.812 50	0.661 25	0.591 57	0.945 71	0.515 48	0.171 99	0.633 54	0.856 33	0.720 39	0.796 30	0.668 32	0.889 59	0.847 45	0.689 44
Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao: Contrastive Boundary Learning for Point Cloud Segmentation. CVPR2022
ClickSeg_Semantic	0.703 46	0.774 54	0.800 31	0.793 53	0.760 18	0.847 29	0.471 58	0.802 53	0.463 101	0.634 36	0.968 14	0.491 55	0.271 57	0.726 37	0.910 9	0.706 48	0.815 9	0.551 84	0.878 68	0.833 50	0.570 84

RFCR	0.702 47	0.889 19	0.745 71	0.813 38	0.672 52	0.818 64	0.493 51	0.815 48	0.623 40	0.610 45	0.947 65	0.470 64	0.249 68	0.594 64	0.848 40	0.705 49	0.779 42	0.646 38	0.892 57	0.823 56	0.611 67
Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma: Omni-Supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning. CVPR2021
One Thing One Click	0.701 48	0.825 36	0.796 35	0.723 69	0.716 39	0.832 46	0.433 82	0.816 46	0.634 37	0.609 46	0.969 12	0.418 90	0.344 14	0.559 76	0.833 44	0.715 43	0.808 19	0.560 78	0.902 48	0.847 45	0.680 47

JSENet	0.699 49	0.881 21	0.762 57	0.821 33	0.667 53	0.800 77	0.522 33	0.792 56	0.613 44	0.607 48	0.935 91	0.492 54	0.205 86	0.576 69	0.853 37	0.691 56	0.758 59	0.652 36	0.872 77	0.828 53	0.649 56
Zeyu HU, Mingmin Zhen, Xuyang BAI, Hongbo Fu, Chiew-lan Tai: JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D Point Clouds. ECCV 2020
One-Thing-One-Click	0.693 50	0.743 68	0.794 37	0.655 92	0.684 49	0.822 57	0.497 48	0.719 75	0.622 41	0.617 42	0.977 10	0.447 77	0.339 18	0.750 30	0.664 81	0.703 51	0.790 37	0.596 61	0.946 12	0.855 38	0.647 57
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
PicassoNet-II	0.692 51	0.732 73	0.772 51	0.786 54	0.677 51	0.866 9	0.517 35	0.848 32	0.509 87	0.626 38	0.952 50	0.536 37	0.225 76	0.545 82	0.704 71	0.689 59	0.810 16	0.564 77	0.903 47	0.854 40	0.729 24
Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian: Geometric feature learning for 3D meshes.
Feature_GeometricNet	0.690 52	0.884 20	0.754 63	0.795 51	0.647 60	0.818 64	0.422 84	0.802 53	0.612 45	0.604 49	0.945 71	0.462 67	0.189 94	0.563 75	0.853 37	0.726 35	0.765 52	0.632 44	0.904 45	0.821 59	0.606 71
Kangcheng Liu, Ben M. Chen: https://arxiv.org/abs/2012.09439. arXiv Preprint
FusionNet	0.688 53	0.704 86	0.741 75	0.754 66	0.656 55	0.829 49	0.501 43	0.741 70	0.609 48	0.548 65	0.950 56	0.522 46	0.371 5	0.633 54	0.756 59	0.715 43	0.771 48	0.623 49	0.861 85	0.814 62	0.658 53
Feihu Zhang, Jin Fang, Benjamin Wah, Philip Torr: Deep FusionNet for Point Cloud Semantic Segmentation. ECCV 2020
Feature-Geometry Net	0.685 54	0.866 23	0.748 68	0.819 35	0.645 62	0.794 80	0.450 70	0.802 53	0.587 60	0.604 49	0.945 71	0.464 66	0.201 89	0.554 78	0.840 42	0.723 38	0.732 72	0.602 59	0.907 43	0.822 58	0.603 74

VACNN++	0.684 55	0.728 76	0.757 62	0.776 59	0.690 45	0.804 75	0.464 63	0.816 46	0.577 66	0.587 58	0.945 71	0.508 51	0.276 52	0.671 42	0.710 69	0.663 67	0.750 65	0.589 66	0.881 65	0.832 52	0.653 55

KP-FCNN	0.684 55	0.847 29	0.758 61	0.784 56	0.647 60	0.814 67	0.473 57	0.772 59	0.605 50	0.594 56	0.935 91	0.450 75	0.181 97	0.587 65	0.805 52	0.690 57	0.785 40	0.614 52	0.882 64	0.819 60	0.632 63
H. Thomas, C. Qi, J. Deschaud, B. Marcotegui, F. Goulette, L. Guibas.: KPConv: Flexible and Deformable Convolution for Point Clouds. ICCV 2019
DGNet	0.684 55	0.712 85	0.784 45	0.782 58	0.658 54	0.835 43	0.499 47	0.823 45	0.641 34	0.597 54	0.950 56	0.487 57	0.281 48	0.575 70	0.619 85	0.647 75	0.764 53	0.620 51	0.871 80	0.846 47	0.688 45

PointContrast_LA_SEM	0.683 58	0.757 63	0.784 45	0.786 54	0.639 64	0.824 55	0.408 87	0.775 58	0.604 52	0.541 67	0.934 95	0.532 41	0.269 59	0.552 79	0.777 57	0.645 78	0.793 34	0.640 41	0.913 42	0.824 55	0.671 49

Superpoint Network	0.683 58	0.851 28	0.728 79	0.800 50	0.653 57	0.806 73	0.468 60	0.804 51	0.572 67	0.602 51	0.946 68	0.453 74	0.239 72	0.519 87	0.822 46	0.689 59	0.762 56	0.595 63	0.895 54	0.827 54	0.630 64

VI-PointConv	0.676 60	0.770 58	0.754 63	0.783 57	0.621 68	0.814 67	0.552 18	0.758 63	0.571 70	0.557 63	0.954 41	0.529 42	0.268 61	0.530 85	0.682 75	0.675 62	0.719 75	0.603 58	0.888 60	0.833 50	0.665 51
Xingyi Li, Wenxuan Wu, Xiaoli Z. Fern, Li Fuxin: The Devils in the Point Clouds: Studying the Robustness of Point Cloud Convolutions.
ROSMRF3D	0.673 61	0.789 45	0.748 68	0.763 64	0.635 66	0.814 67	0.407 89	0.747 67	0.581 64	0.573 60	0.950 56	0.484 58	0.271 57	0.607 61	0.754 60	0.649 72	0.774 45	0.596 61	0.883 63	0.823 56	0.606 71

SALANet	0.670 62	0.816 39	0.770 54	0.768 61	0.652 58	0.807 72	0.451 67	0.747 67	0.659 28	0.545 66	0.924 101	0.473 63	0.149 109	0.571 72	0.811 51	0.635 82	0.746 66	0.623 49	0.892 57	0.794 76	0.570 84

O3DSeg	0.668 63	0.822 37	0.771 53	0.496 113	0.651 59	0.833 45	0.541 23	0.761 62	0.555 76	0.611 44	0.966 15	0.489 56	0.370 6	0.388 106	0.580 89	0.776 17	0.751 63	0.570 72	0.956 7	0.817 61	0.646 58

PointConv	0.666 64	0.781 49	0.759 59	0.699 77	0.644 63	0.822 57	0.475 56	0.779 57	0.564 73	0.504 84	0.953 45	0.428 84	0.203 88	0.586 67	0.754 60	0.661 68	0.753 62	0.588 67	0.902 48	0.813 64	0.642 59
Wenxuan Wu, Zhongang Qi, Li Fuxin: PointConv: Deep Convolutional Networks on 3D Point Clouds. CVPR 2019
PointASNL	0.666 64	0.703 87	0.781 47	0.751 68	0.655 56	0.830 48	0.471 58	0.769 60	0.474 97	0.537 69	0.951 52	0.475 62	0.279 50	0.635 52	0.698 74	0.675 62	0.751 63	0.553 83	0.816 96	0.806 66	0.703 41
Xu Yan, Chaoda Zheng, Zhen Li, Sheng Wang, Shuguang Cui: PointASNL: Robust Point Clouds Processing using Nonlocal Neural Networks with Adaptive Sampling. CVPR 2020
PPCNN++	0.663 66	0.746 66	0.708 82	0.722 70	0.638 65	0.820 60	0.451 67	0.566 103	0.599 55	0.541 67	0.950 56	0.510 50	0.313 30	0.648 48	0.819 49	0.616 87	0.682 90	0.590 65	0.869 81	0.810 65	0.656 54
Pyunghwan Ahn, Juyoung Yang, Eojindl Yi, Chanho Lee, Junmo Kim: Projection-based Point Convolution for Efficient Point Cloud Segmentation. IEEE Access
MVF-GNN	0.658 67	0.558 109	0.751 66	0.655 92	0.690 45	0.722 102	0.453 66	0.867 24	0.579 65	0.576 59	0.893 113	0.523 44	0.293 40	0.733 35	0.571 91	0.692 54	0.659 97	0.606 56	0.875 71	0.804 68	0.668 50

DCM-Net	0.658 67	0.778 50	0.702 85	0.806 46	0.619 69	0.813 70	0.468 60	0.693 83	0.494 90	0.524 75	0.941 83	0.449 76	0.298 37	0.510 89	0.821 47	0.675 62	0.727 74	0.568 75	0.826 94	0.803 69	0.637 61
Jonas Schult, Francis Engelmann, Theodora Kontogianni, Bastian Leibe: DualConvMesh-Net: Joint Geodesic and Euclidean Convolutions on 3D Meshes. CVPR 2020 [Oral]
HPGCNN	0.656 69	0.698 89	0.743 73	0.650 94	0.564 86	0.820 60	0.505 41	0.758 63	0.631 38	0.479 88	0.945 71	0.480 60	0.226 74	0.572 71	0.774 58	0.690 57	0.735 70	0.614 52	0.853 88	0.776 91	0.597 77
Jisheng Dang, Qingyong Hu, Yulan Guo, Jun Yang: HPGCNN.
SAFNet-seg	0.654 70	0.752 64	0.734 77	0.664 90	0.583 81	0.815 66	0.399 91	0.754 65	0.639 35	0.535 71	0.942 81	0.470 64	0.309 32	0.665 43	0.539 93	0.650 71	0.708 80	0.635 43	0.857 87	0.793 78	0.642 59
Linqing Zhao, Jiwen Lu, Jie Zhou: Similarity-Aware Fusion Network for 3D Semantic Segmentation. IROS 2021
RandLA-Net	0.645 71	0.778 50	0.731 78	0.699 77	0.577 82	0.829 49	0.446 72	0.736 71	0.477 96	0.523 77	0.945 71	0.454 71	0.269 59	0.484 96	0.749 63	0.618 85	0.738 68	0.599 60	0.827 93	0.792 81	0.621 66

PointConv-SFPN	0.641 72	0.776 52	0.703 84	0.721 71	0.557 89	0.826 52	0.451 67	0.672 88	0.563 74	0.483 87	0.943 80	0.425 87	0.162 104	0.644 49	0.726 65	0.659 69	0.709 79	0.572 71	0.875 71	0.786 86	0.559 90

MVPNet	0.641 72	0.831 33	0.715 80	0.671 87	0.590 77	0.781 86	0.394 93	0.679 85	0.642 33	0.553 64	0.937 88	0.462 67	0.256 65	0.649 46	0.406 106	0.626 83	0.691 87	0.666 33	0.877 69	0.792 81	0.608 70
Maximilian Jaritz, Jiayuan Gu, Hao Su: Multi-view PointNet for 3D Scene Understanding. GMDL Workshop, ICCV 2019
PointMRNet	0.640 74	0.717 83	0.701 86	0.692 80	0.576 83	0.801 76	0.467 62	0.716 76	0.563 74	0.459 94	0.953 45	0.429 83	0.169 101	0.581 68	0.854 36	0.605 88	0.710 77	0.550 85	0.894 56	0.793 78	0.575 82

FPConv	0.639 75	0.785 47	0.760 58	0.713 75	0.603 72	0.798 78	0.392 95	0.534 108	0.603 53	0.524 75	0.948 63	0.457 69	0.250 67	0.538 83	0.723 67	0.598 92	0.696 85	0.614 52	0.872 77	0.799 71	0.567 87
Yiqun Lin, Zizheng Yan, Haibin Huang, Dong Du, Ligang Liu, Shuguang Cui, Xiaoguang Han: FPConv: Learning Local Flattening for Point Convolution. CVPR 2020
PD-Net	0.638 76	0.797 43	0.769 55	0.641 99	0.590 77	0.820 60	0.461 64	0.537 107	0.637 36	0.536 70	0.947 65	0.388 97	0.206 85	0.656 44	0.668 79	0.647 75	0.732 72	0.585 69	0.868 82	0.793 78	0.473 110

PointSPNet	0.637 77	0.734 72	0.692 93	0.714 74	0.576 83	0.797 79	0.446 72	0.743 69	0.598 56	0.437 99	0.942 81	0.403 93	0.150 108	0.626 56	0.800 55	0.649 72	0.697 84	0.557 81	0.846 90	0.777 90	0.563 88

SConv	0.636 78	0.830 34	0.697 89	0.752 67	0.572 85	0.780 88	0.445 74	0.716 76	0.529 80	0.530 72	0.951 52	0.446 78	0.170 100	0.507 91	0.666 80	0.636 81	0.682 90	0.541 91	0.886 61	0.799 71	0.594 78

Supervoxel-CNN	0.635 79	0.656 95	0.711 81	0.719 72	0.613 70	0.757 97	0.444 77	0.765 61	0.534 79	0.566 61	0.928 99	0.478 61	0.272 55	0.636 51	0.531 95	0.664 66	0.645 101	0.508 99	0.864 84	0.792 81	0.611 67

joint point-based	0.634 80	0.614 103	0.778 48	0.667 89	0.633 67	0.825 53	0.420 85	0.804 51	0.467 99	0.561 62	0.951 52	0.494 53	0.291 42	0.566 73	0.458 101	0.579 98	0.764 53	0.559 80	0.838 91	0.814 62	0.598 76
Hung-Yueh Chiang, Yen-Liang Lin, Yueh-Cheng Liu, Winston H. Hsu: A Unified Point-Based Framework for 3D Segmentation. 3DV 2019
PointMTL	0.632 81	0.731 74	0.688 96	0.675 84	0.591 76	0.784 85	0.444 77	0.565 104	0.610 46	0.492 85	0.949 60	0.456 70	0.254 66	0.587 65	0.706 70	0.599 91	0.665 96	0.612 55	0.868 82	0.791 84	0.579 81

PointNet2-SFPN	0.631 82	0.771 56	0.692 93	0.672 85	0.524 95	0.837 40	0.440 79	0.706 81	0.538 78	0.446 96	0.944 77	0.421 89	0.219 79	0.552 79	0.751 62	0.591 94	0.737 69	0.543 90	0.901 50	0.768 93	0.557 91

APCF-Net	0.631 82	0.742 69	0.687 98	0.672 85	0.557 89	0.792 83	0.408 87	0.665 90	0.545 77	0.508 81	0.952 50	0.428 84	0.186 95	0.634 53	0.702 72	0.620 84	0.706 81	0.555 82	0.873 75	0.798 73	0.581 80
Haojia, Lin: Adaptive Pyramid Context Fusion for Point Cloud Perception. GRSL
3DSM_DMMF	0.631 82	0.626 100	0.745 71	0.801 49	0.607 71	0.751 98	0.506 40	0.729 74	0.565 72	0.491 86	0.866 116	0.434 79	0.197 92	0.595 63	0.630 84	0.709 46	0.705 82	0.560 78	0.875 71	0.740 101	0.491 105

FusionAwareConv	0.630 85	0.604 105	0.741 75	0.766 63	0.590 77	0.747 99	0.501 43	0.734 72	0.503 89	0.527 73	0.919 105	0.454 71	0.323 27	0.550 81	0.420 105	0.678 61	0.688 88	0.544 88	0.896 53	0.795 75	0.627 65
Jiazhao Zhang, Chenyang Zhu, Lintao Zheng, Kai Xu: Fusion-Aware Point Convolution for Online Semantic 3D Scene Segmentation. CVPR 2020
DenSeR	0.628 86	0.800 42	0.625 108	0.719 72	0.545 92	0.806 73	0.445 74	0.597 98	0.448 104	0.519 79	0.938 87	0.481 59	0.328 25	0.489 95	0.499 100	0.657 70	0.759 58	0.592 64	0.881 65	0.797 74	0.634 62

SegGroup_sem	0.627 87	0.818 38	0.747 70	0.701 76	0.602 73	0.764 94	0.385 99	0.629 95	0.490 92	0.508 81	0.931 98	0.409 92	0.201 89	0.564 74	0.725 66	0.618 85	0.692 86	0.539 92	0.873 75	0.794 76	0.548 94
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
SIConv	0.625 88	0.830 34	0.694 91	0.757 65	0.563 87	0.772 92	0.448 71	0.647 93	0.520 83	0.509 80	0.949 60	0.431 82	0.191 93	0.496 93	0.614 86	0.647 75	0.672 94	0.535 95	0.876 70	0.783 87	0.571 83

dtc_net	0.625 88	0.703 87	0.751 66	0.794 52	0.535 93	0.848 27	0.480 55	0.676 87	0.528 81	0.469 91	0.944 77	0.454 71	0.004 121	0.464 98	0.636 83	0.704 50	0.758 59	0.548 87	0.924 30	0.787 85	0.492 104

Weakly-Openseg v3	0.625 88	0.924 8	0.787 43	0.620 101	0.555 91	0.811 71	0.393 94	0.666 89	0.382 112	0.520 78	0.953 45	0.250 116	0.208 83	0.604 62	0.670 77	0.644 79	0.742 67	0.538 93	0.919 36	0.803 69	0.513 102

HPEIN	0.618 91	0.729 75	0.668 99	0.647 96	0.597 75	0.766 93	0.414 86	0.680 84	0.520 83	0.525 74	0.946 68	0.432 80	0.215 81	0.493 94	0.599 87	0.638 80	0.617 106	0.570 72	0.897 52	0.806 66	0.605 73
Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi-Wing Fu, Jiaya Jia: Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation. ICCV 2019
SPH3D-GCN	0.610 92	0.858 27	0.772 51	0.489 114	0.532 94	0.792 83	0.404 90	0.643 94	0.570 71	0.507 83	0.935 91	0.414 91	0.046 118	0.510 89	0.702 72	0.602 90	0.705 82	0.549 86	0.859 86	0.773 92	0.534 97
Huan Lei, Naveed Akhtar, and Ajmal Mian: Spherical Kernel for Efficient Graph Convolution on 3D Point Clouds. TPAMI 2020
AttAN	0.609 93	0.760 61	0.667 100	0.649 95	0.521 96	0.793 81	0.457 65	0.648 92	0.528 81	0.434 101	0.947 65	0.401 94	0.153 107	0.454 99	0.721 68	0.648 74	0.717 76	0.536 94	0.904 45	0.765 94	0.485 106
Gege Zhang, Qinghua Ma, Licheng Jiao, Fang Liu and Qigong Sun: AttAN: Attention Adversarial Networks for 3D Point Cloud Semantic Segmentation. IJCAI2020
wsss-transformer	0.600 94	0.634 99	0.743 73	0.697 79	0.601 74	0.781 86	0.437 81	0.585 101	0.493 91	0.446 96	0.933 96	0.394 95	0.011 120	0.654 45	0.661 82	0.603 89	0.733 71	0.526 96	0.832 92	0.761 96	0.480 107

LAP-D	0.594 95	0.720 81	0.692 93	0.637 100	0.456 105	0.773 91	0.391 97	0.730 73	0.587 60	0.445 98	0.940 85	0.381 98	0.288 43	0.434 102	0.453 103	0.591 94	0.649 99	0.581 70	0.777 100	0.749 100	0.610 69

DPC	0.592 96	0.720 81	0.700 87	0.602 105	0.480 101	0.762 96	0.380 100	0.713 79	0.585 63	0.437 99	0.940 85	0.369 100	0.288 43	0.434 102	0.509 99	0.590 96	0.639 104	0.567 76	0.772 101	0.755 98	0.592 79
Francis Engelmann, Theodora Kontogianni, Bastian Leibe: Dilated Point Convolutions: On the Receptive Field Size of Point Convolutions on 3D Point Clouds. ICRA 2020
CCRFNet	0.589 97	0.766 60	0.659 103	0.683 82	0.470 104	0.740 101	0.387 98	0.620 97	0.490 92	0.476 89	0.922 103	0.355 103	0.245 70	0.511 88	0.511 98	0.571 99	0.643 102	0.493 103	0.872 77	0.762 95	0.600 75

ROSMRF	0.580 98	0.772 55	0.707 83	0.681 83	0.563 87	0.764 94	0.362 102	0.515 109	0.465 100	0.465 93	0.936 90	0.427 86	0.207 84	0.438 100	0.577 90	0.536 102	0.675 93	0.486 104	0.723 107	0.779 88	0.524 99

SD-DETR	0.576 99	0.746 66	0.609 112	0.445 118	0.517 97	0.643 113	0.366 101	0.714 78	0.456 102	0.468 92	0.870 115	0.432 80	0.264 62	0.558 77	0.674 76	0.586 97	0.688 88	0.482 105	0.739 105	0.733 103	0.537 96

SQN_0.1%	0.569 100	0.676 91	0.696 90	0.657 91	0.497 98	0.779 89	0.424 83	0.548 105	0.515 85	0.376 106	0.902 112	0.422 88	0.357 10	0.379 107	0.456 102	0.596 93	0.659 97	0.544 88	0.685 110	0.665 114	0.556 92

TextureNet	0.566 101	0.672 93	0.664 101	0.671 87	0.494 99	0.719 103	0.445 74	0.678 86	0.411 110	0.396 104	0.935 91	0.356 102	0.225 76	0.412 104	0.535 94	0.565 100	0.636 105	0.464 107	0.794 99	0.680 111	0.568 86
Jingwei Huang, Haotian Zhang, Li Yi, Thomas Funkerhouser, Matthias Niessner, Leonidas Guibas: TextureNet: Consistent Local Parametrizations for Learning from High-Resolution Signals on Meshes. CVPR
DVVNet	0.562 102	0.648 96	0.700 87	0.770 60	0.586 80	0.687 107	0.333 106	0.650 91	0.514 86	0.475 90	0.906 109	0.359 101	0.223 78	0.340 109	0.442 104	0.422 113	0.668 95	0.501 100	0.708 108	0.779 88	0.534 97

Pointnet++ & Feature	0.557 103	0.735 71	0.661 102	0.686 81	0.491 100	0.744 100	0.392 95	0.539 106	0.451 103	0.375 107	0.946 68	0.376 99	0.205 86	0.403 105	0.356 109	0.553 101	0.643 102	0.497 101	0.824 95	0.756 97	0.515 100

GMLPs	0.538 104	0.495 114	0.693 92	0.647 96	0.471 103	0.793 81	0.300 109	0.477 110	0.505 88	0.358 108	0.903 111	0.327 106	0.081 115	0.472 97	0.529 96	0.448 111	0.710 77	0.509 97	0.746 103	0.737 102	0.554 93

PanopticFusion-label	0.529 105	0.491 115	0.688 96	0.604 104	0.386 110	0.632 114	0.225 120	0.705 82	0.434 107	0.293 114	0.815 118	0.348 104	0.241 71	0.499 92	0.669 78	0.507 104	0.649 99	0.442 113	0.796 98	0.602 118	0.561 89
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
subcloud_weak	0.516 106	0.676 91	0.591 115	0.609 102	0.442 106	0.774 90	0.335 105	0.597 98	0.422 109	0.357 109	0.932 97	0.341 105	0.094 114	0.298 111	0.528 97	0.473 109	0.676 92	0.495 102	0.602 116	0.721 106	0.349 118

Online SegFusion	0.515 107	0.607 104	0.644 106	0.579 107	0.434 107	0.630 115	0.353 103	0.628 96	0.440 105	0.410 102	0.762 121	0.307 108	0.167 102	0.520 86	0.403 107	0.516 103	0.565 109	0.447 111	0.678 111	0.701 108	0.514 101
Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstroem, Cristian Sminchisescu, Luc van Gool: A Real-Time Learning Framework for Joint 3D Reconstruction and Semantic Segmentation. Robotics and Automation Letters Submission
3DMV, FTSDF	0.501 108	0.558 109	0.608 113	0.424 120	0.478 102	0.690 106	0.246 116	0.586 100	0.468 98	0.450 95	0.911 107	0.394 95	0.160 105	0.438 100	0.212 116	0.432 112	0.541 114	0.475 106	0.742 104	0.727 104	0.477 108

PCNN	0.498 109	0.559 108	0.644 106	0.560 109	0.420 109	0.711 105	0.229 118	0.414 111	0.436 106	0.352 110	0.941 83	0.324 107	0.155 106	0.238 116	0.387 108	0.493 105	0.529 115	0.509 97	0.813 97	0.751 99	0.504 103

3DMV	0.484 110	0.484 116	0.538 118	0.643 98	0.424 108	0.606 118	0.310 107	0.574 102	0.433 108	0.378 105	0.796 119	0.301 109	0.214 82	0.537 84	0.208 117	0.472 110	0.507 118	0.413 116	0.693 109	0.602 118	0.539 95
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
PointCNN with RGB	0.458 111	0.577 107	0.611 111	0.356 122	0.321 118	0.715 104	0.299 111	0.376 115	0.328 118	0.319 112	0.944 77	0.285 111	0.164 103	0.216 119	0.229 114	0.484 107	0.545 113	0.456 109	0.755 102	0.709 107	0.475 109
Yangyan Li, Rui Bu, Mingchao Sun, Baoquan Chen: PointCNN. NeurIPS 2018
FCPN	0.447 112	0.679 90	0.604 114	0.578 108	0.380 111	0.682 108	0.291 112	0.106 122	0.483 95	0.258 120	0.920 104	0.258 115	0.025 119	0.231 118	0.325 110	0.480 108	0.560 111	0.463 108	0.725 106	0.666 113	0.231 122
Dario Rethage, Johanna Wald, Jürgen Sturm, Nassir Navab, Federico Tombari: Fully-Convolutional Point Networks for Large-Scale Point Clouds. ECCV 2018
DGCNN_reproduce	0.446 113	0.474 117	0.623 109	0.463 116	0.366 113	0.651 111	0.310 107	0.389 114	0.349 116	0.330 111	0.937 88	0.271 113	0.126 111	0.285 112	0.224 115	0.350 118	0.577 108	0.445 112	0.625 114	0.723 105	0.394 114
Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E. Sarma, Michael M. Bronstein, Justin M. Solomon: Dynamic Graph CNN for Learning on Point Clouds. TOG 2019
PNET2	0.442 114	0.548 111	0.548 117	0.597 106	0.363 114	0.628 116	0.300 109	0.292 117	0.374 113	0.307 113	0.881 114	0.268 114	0.186 95	0.238 116	0.204 118	0.407 114	0.506 119	0.449 110	0.667 112	0.620 117	0.462 112

SurfaceConvPF	0.442 114	0.505 113	0.622 110	0.380 121	0.342 116	0.654 110	0.227 119	0.397 113	0.367 114	0.276 116	0.924 101	0.240 117	0.198 91	0.359 108	0.262 112	0.366 115	0.581 107	0.435 114	0.640 113	0.668 112	0.398 113
Hao Pan, Shilin Liu, Yang Liu, Xin Tong: Convolutional Neural Networks on 3D Surfaces Using Parallel Frames.
Tangent Convolutions	0.438 116	0.437 119	0.646 105	0.474 115	0.369 112	0.645 112	0.353 103	0.258 119	0.282 121	0.279 115	0.918 106	0.298 110	0.147 110	0.283 113	0.294 111	0.487 106	0.562 110	0.427 115	0.619 115	0.633 116	0.352 117
Maxim Tatarchenko, Jaesik Park, Vladlen Koltun, Qian-Yi Zhou: Tangent convolutions for dense prediction in 3d. CVPR 2018
3DWSSS	0.425 117	0.525 112	0.647 104	0.522 110	0.324 117	0.488 122	0.077 123	0.712 80	0.353 115	0.401 103	0.636 123	0.281 112	0.176 98	0.340 109	0.565 92	0.175 122	0.551 112	0.398 117	0.370 123	0.602 118	0.361 116

SPLAT Net	0.393 118	0.472 118	0.511 119	0.606 103	0.311 119	0.656 109	0.245 117	0.405 112	0.328 118	0.197 121	0.927 100	0.227 119	0.000 123	0.001 124	0.249 113	0.271 121	0.510 116	0.383 119	0.593 117	0.699 109	0.267 120
Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz: SPLATNet: Sparse Lattice Networks for Point Cloud Processing. CVPR 2018
ScanNet+FTSDF	0.383 119	0.297 121	0.491 120	0.432 119	0.358 115	0.612 117	0.274 114	0.116 121	0.411 110	0.265 117	0.904 110	0.229 118	0.079 116	0.250 114	0.185 119	0.320 119	0.510 116	0.385 118	0.548 118	0.597 121	0.394 114

PointNet++	0.339 120	0.584 106	0.478 121	0.458 117	0.256 121	0.360 123	0.250 115	0.247 120	0.278 122	0.261 119	0.677 122	0.183 120	0.117 112	0.212 120	0.145 121	0.364 116	0.346 123	0.232 123	0.548 118	0.523 122	0.252 121
Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas: pointnet++: deep hierarchical feature learning on point sets in a metric space.
GrowSP++	0.323 121	0.114 123	0.589 116	0.499 112	0.147 123	0.555 119	0.290 113	0.336 116	0.290 120	0.262 118	0.865 117	0.102 123	0.000 123	0.037 122	0.000 124	0.000 124	0.462 120	0.381 120	0.389 122	0.664 115	0.473 110

SSC-UNet	0.308 122	0.353 120	0.290 123	0.278 123	0.166 122	0.553 120	0.169 122	0.286 118	0.147 123	0.148 123	0.908 108	0.182 121	0.064 117	0.023 123	0.018 123	0.354 117	0.363 121	0.345 121	0.546 120	0.685 110	0.278 119

ScanNet	0.306 123	0.203 122	0.366 122	0.501 111	0.311 119	0.524 121	0.211 121	0.002 124	0.342 117	0.189 122	0.786 120	0.145 122	0.102 113	0.245 115	0.152 120	0.318 120	0.348 122	0.300 122	0.460 121	0.437 123	0.182 123
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17
ERROR	0.054 124	0.000 124	0.041 124	0.172 124	0.030 124	0.062 124	0.001 124	0.035 123	0.004 124	0.051 124	0.143 124	0.019 124	0.003 122	0.041 121	0.050 122	0.003 123	0.054 124	0.018 124	0.005 124	0.264 124	0.082 124

This table lists the benchmark results for the 3D semantic instance scenario.

Method	avg ap 50%	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

Competitor-MAFT	0.816 1	1.000 1	0.983 4	0.872 11	0.718 6	0.941 2	0.588 5	0.652 41	0.819 2	0.776 3	0.720 6	0.780 6	0.769 11	1.000 1	0.797 11	0.813 31	0.798 9	1.000 1	0.659 5

PointRel	0.816 1	1.000 1	0.971 9	0.908 6	0.743 2	0.923 9	0.573 9	0.714 22	0.695 20	0.734 11	0.747 2	0.725 12	0.809 1	1.000 1	0.814 9	0.899 5	0.820 3	1.000 1	0.610 19
: Relation3D: Enhancing Relation Modeling for Point Cloud Instance Segmentation. CVPR 2025
Spherical Mask(CtoF)	0.812 3	1.000 1	0.973 8	0.852 16	0.718 7	0.917 11	0.574 7	0.677 31	0.748 12	0.729 15	0.715 9	0.795 3	0.809 1	1.000 1	0.831 4	0.854 12	0.787 13	1.000 1	0.638 8

PointComp	0.811 4	0.850 60	0.969 10	0.864 13	0.739 4	0.946 1	0.539 15	0.671 34	0.835 1	0.700 19	0.742 3	0.817 1	0.766 12	1.000 1	0.755 22	0.909 1	0.808 7	1.000 1	0.687 2

EV3D	0.811 4	1.000 1	0.968 11	0.852 16	0.717 8	0.921 10	0.574 8	0.677 31	0.748 12	0.730 14	0.703 14	0.795 3	0.809 1	1.000 1	0.831 4	0.854 12	0.778 17	1.000 1	0.638 9

VDG-Uni3DSeg	0.804 6	1.000 1	0.990 1	0.886 9	0.688 21	0.912 13	0.602 2	0.703 26	0.786 7	0.771 4	0.708 12	0.700 17	0.669 27	0.981 42	0.789 17	0.903 2	0.772 20	1.000 1	0.609 20

SIM3D	0.803 7	1.000 1	0.967 12	0.863 14	0.692 20	0.924 8	0.552 13	0.732 21	0.667 25	0.732 13	0.662 19	0.796 2	0.789 9	1.000 1	0.803 10	0.864 9	0.766 23	1.000 1	0.643 7

OneFormer3D	0.801 8	1.000 1	0.973 7	0.909 5	0.698 16	0.928 6	0.582 6	0.668 37	0.685 21	0.780 2	0.687 16	0.698 21	0.702 15	1.000 1	0.794 13	0.900 4	0.784 15	0.986 55	0.635 10
Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: OneFormer3D: One Transformer for Unified Point Cloud Segmentation.
Competitor-SPFormer	0.800 9	1.000 1	0.986 3	0.845 18	0.705 14	0.915 12	0.532 16	0.733 20	0.757 11	0.733 12	0.708 11	0.698 20	0.648 39	0.981 42	0.890 1	0.830 22	0.796 10	0.997 43	0.644 6

InsSSM	0.799 10	1.000 1	0.915 15	0.710 44	0.729 5	0.925 7	0.664 1	0.670 35	0.770 8	0.766 5	0.739 4	0.737 8	0.700 16	1.000 1	0.792 14	0.829 24	0.815 4	0.997 43	0.625 12
Lei Yao, Yi Wang, Moyun Liu, Lap-Pui Chau: SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation. TCSVT, 2024
DCD	0.798 11	1.000 1	0.878 22	0.792 30	0.693 19	0.936 3	0.596 3	0.685 30	0.663 27	0.736 9	0.717 7	0.788 5	0.693 22	1.000 1	0.825 7	0.840 18	0.837 1	1.000 1	0.689 1

TST3D	0.795 12	1.000 1	0.929 14	0.918 4	0.709 11	0.884 23	0.596 4	0.704 25	0.769 9	0.734 10	0.644 24	0.699 19	0.751 13	1.000 1	0.794 12	0.876 8	0.757 26	0.997 43	0.550 36
Duc Tran Dang Trung, Byeongkeun Kang, Yeejin Lee: MSTA3D: Multi-scale Twin-attention for 3D Instance Segmentation. ACM Multimedia 2024
UniPerception	0.791 13	1.000 1	0.861 23	0.855 15	0.741 3	0.901 15	0.510 17	0.769 12	0.726 15	0.757 7	0.673 18	0.628 29	0.696 21	1.000 1	0.779 19	0.876 7	0.810 6	1.000 1	0.662 4

MG-Former	0.791 13	1.000 1	0.980 6	0.837 21	0.626 29	0.897 16	0.543 14	0.759 15	0.800 6	0.766 6	0.659 20	0.769 7	0.697 19	1.000 1	0.791 15	0.707 52	0.791 12	1.000 1	0.610 18

ExtMask3D	0.789 15	1.000 1	0.988 2	0.756 37	0.706 13	0.912 14	0.429 23	0.647 43	0.806 5	0.755 8	0.673 17	0.689 22	0.772 10	1.000 1	0.789 16	0.852 14	0.811 5	1.000 1	0.617 15

Queryformer	0.787 16	1.000 1	0.933 13	0.601 54	0.754 1	0.886 21	0.558 12	0.661 39	0.767 10	0.665 22	0.716 8	0.639 28	0.808 5	1.000 1	0.844 3	0.897 6	0.804 8	1.000 1	0.624 13

MAFT	0.786 17	1.000 1	0.894 20	0.807 25	0.694 18	0.893 19	0.486 19	0.674 33	0.740 14	0.786 1	0.704 13	0.727 11	0.739 14	1.000 1	0.707 28	0.849 16	0.756 27	1.000 1	0.685 3

KmaxOneFormerNet	0.783 18	0.903 58	0.981 5	0.794 29	0.706 12	0.931 5	0.561 11	0.701 27	0.706 18	0.727 16	0.697 15	0.731 10	0.689 24	1.000 1	0.856 2	0.750 43	0.761 25	1.000 1	0.599 24

Mask3D	0.780 19	1.000 1	0.786 47	0.716 42	0.696 17	0.885 22	0.500 18	0.714 22	0.810 4	0.672 21	0.715 9	0.679 23	0.809 1	1.000 1	0.831 4	0.833 21	0.787 13	1.000 1	0.602 22
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
SPFormer	0.770 20	0.903 58	0.903 17	0.806 26	0.609 36	0.886 20	0.568 10	0.815 6	0.705 19	0.711 17	0.655 21	0.652 27	0.685 25	1.000 1	0.789 18	0.809 32	0.776 19	1.000 1	0.583 28
Sun Jiahao, Qing Chunmei, Tan Junpeng, Xu Xiangmin: Superpoint Transformer for 3D Scene Instance Segmentation. AAAI 2023 [Oral]
SoftGroup++	0.769 21	1.000 1	0.803 40	0.937 1	0.684 22	0.865 25	0.213 39	0.870 2	0.664 26	0.571 29	0.758 1	0.702 16	0.807 6	1.000 1	0.653 35	0.902 3	0.792 11	1.000 1	0.626 11

SoftGroup	0.761 22	1.000 1	0.808 36	0.845 18	0.716 9	0.862 27	0.243 36	0.824 4	0.655 29	0.620 23	0.734 5	0.699 18	0.791 8	0.981 42	0.716 25	0.844 17	0.769 21	1.000 1	0.594 26
Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo: SoftGroup for 3D Instance Segmentaiton on Point Clouds. CVPR 2022 [Oral]
ISBNet	0.757 23	1.000 1	0.904 16	0.731 40	0.678 23	0.895 17	0.458 21	0.644 45	0.670 24	0.710 18	0.620 29	0.732 9	0.650 29	1.000 1	0.756 21	0.778 35	0.779 16	1.000 1	0.614 16
Tuan Duc Ngo, Binh-Son Hua, Khoi Nguyen: ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution. CVPR 2023
TD3D	0.751 24	1.000 1	0.774 48	0.867 12	0.621 31	0.934 4	0.404 24	0.706 24	0.812 3	0.605 26	0.633 27	0.626 30	0.690 23	1.000 1	0.640 37	0.820 27	0.777 18	1.000 1	0.612 17
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
PBNet	0.747 25	1.000 1	0.818 32	0.837 22	0.713 10	0.844 29	0.457 22	0.647 43	0.711 17	0.614 24	0.617 31	0.657 26	0.650 29	1.000 1	0.692 29	0.822 26	0.765 24	1.000 1	0.595 25
Weiguang Zhao, Yuyao Yan, Chaolong Yang, Jianan Ye, Xi Yang, Kaizhu Huang: Divide and Conquer: 3D Instance Segmentation With Point-Wise Binarization. ICCV 2023
GraphCut	0.732 26	1.000 1	0.788 45	0.724 41	0.642 28	0.859 28	0.248 35	0.787 11	0.618 32	0.596 27	0.653 23	0.722 14	0.583 51	1.000 1	0.766 20	0.861 10	0.825 2	1.000 1	0.504 42

IPCA-Inst	0.731 27	1.000 1	0.788 46	0.884 10	0.698 15	0.788 45	0.252 34	0.760 14	0.646 30	0.511 37	0.637 26	0.665 25	0.804 7	1.000 1	0.644 36	0.778 36	0.747 29	1.000 1	0.561 32

TopoSeg	0.725 28	1.000 1	0.806 39	0.933 2	0.668 25	0.758 50	0.272 33	0.734 19	0.630 31	0.549 33	0.654 22	0.606 31	0.697 20	0.966 47	0.612 41	0.839 19	0.754 28	1.000 1	0.573 29

DKNet	0.718 29	1.000 1	0.814 33	0.782 31	0.619 33	0.872 24	0.224 37	0.751 17	0.569 36	0.677 20	0.585 36	0.724 13	0.633 41	0.981 42	0.515 51	0.819 28	0.736 30	1.000 1	0.617 14
Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong: 3D Instances as 1D Kernels. ECCV 2022
SSEC	0.707 30	1.000 1	0.850 25	0.924 3	0.648 26	0.747 53	0.162 41	0.862 3	0.572 35	0.520 35	0.624 28	0.549 34	0.649 38	1.000 1	0.560 46	0.706 53	0.768 22	1.000 1	0.591 27

HAIS	0.699 31	1.000 1	0.849 26	0.820 23	0.675 24	0.808 39	0.279 31	0.757 16	0.465 42	0.517 36	0.596 33	0.559 33	0.600 45	1.000 1	0.654 34	0.767 38	0.676 34	0.994 51	0.560 33
Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang: Hierarchical Aggregation for 3D Instance Segmentation. ICCV 2021
SSTNet	0.698 32	1.000 1	0.697 64	0.888 8	0.556 43	0.803 40	0.387 25	0.626 47	0.417 47	0.556 32	0.585 37	0.702 15	0.600 45	1.000 1	0.824 8	0.720 51	0.692 32	1.000 1	0.509 41
Zhihao Liang, Zhihao Li, Songcen Xu, Mingkui Tan, Kui Jia: Instance Segmentation in 3D Scenes using Semantic Superpoint Tree Networks. ICCV2021
DualGroup	0.694 33	1.000 1	0.799 42	0.811 24	0.622 30	0.817 34	0.376 26	0.805 9	0.590 34	0.487 41	0.568 40	0.525 38	0.650 29	0.835 59	0.600 42	0.829 23	0.655 37	1.000 1	0.526 38

ODIN - Ins	0.693 34	1.000 1	0.880 21	0.647 49	0.620 32	0.779 47	0.336 28	0.501 62	0.681 22	0.577 28	0.595 34	0.679 24	0.683 26	1.000 1	0.709 27	0.816 30	0.637 41	0.770 71	0.557 34
Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki: ODIN: A Single Model for 2D and 3D Segmentation. CVPR 2024
SphereSeg	0.680 35	1.000 1	0.856 24	0.744 38	0.618 34	0.893 18	0.151 42	0.651 42	0.713 16	0.537 34	0.579 39	0.430 48	0.651 28	1.000 1	0.389 62	0.744 46	0.697 31	0.991 53	0.601 23

DANCENET	0.680 35	1.000 1	0.807 37	0.733 39	0.600 37	0.768 49	0.375 27	0.543 55	0.538 37	0.610 25	0.599 32	0.498 39	0.632 43	0.981 42	0.739 24	0.856 11	0.633 44	0.882 66	0.454 51

Box2Mask	0.677 37	1.000 1	0.847 27	0.771 33	0.509 52	0.816 35	0.277 32	0.558 54	0.482 39	0.562 31	0.640 25	0.448 44	0.700 16	1.000 1	0.666 30	0.852 15	0.578 51	0.997 43	0.488 46
Julian Chibane, Francis Engelmann, Tuan Anh Tran, Gerard Pons-Moll: Box2Mask: Weakly Supervised 3D Semantic Instance Segmentation Using Bounding Boxes. ECCV 2022
OccuSeg+instance	0.672 38	1.000 1	0.758 56	0.682 46	0.576 41	0.842 30	0.477 20	0.504 61	0.524 38	0.567 30	0.585 38	0.451 43	0.557 53	1.000 1	0.751 23	0.797 33	0.563 54	1.000 1	0.467 50
Lei Han, Tian Zheng, Lan Xu, Lu Fang: OccuSeg: Occupancy-aware 3D Instance Segmentation. CVPR2020
Mask-Group	0.664 39	1.000 1	0.822 31	0.764 36	0.616 35	0.815 36	0.139 46	0.694 29	0.597 33	0.459 45	0.566 41	0.599 32	0.600 45	0.516 69	0.715 26	0.819 29	0.635 42	1.000 1	0.603 21
Min Zhong, Xinghao Chen, Xiaokang Chen, Gang Zeng, Yunhe Wang: MaskGroup: Hierarchical Point Grouping and Masking for 3D Instance Segmentation. ICME 2022
INS-Conv-instance	0.657 40	1.000 1	0.760 54	0.667 48	0.581 39	0.863 26	0.323 29	0.655 40	0.477 40	0.473 43	0.549 43	0.432 47	0.650 29	1.000 1	0.655 33	0.738 47	0.585 50	0.944 58	0.472 49

CSC-Pretrained	0.648 41	1.000 1	0.810 34	0.768 34	0.523 50	0.813 37	0.143 45	0.819 5	0.389 50	0.422 54	0.511 47	0.443 45	0.650 29	1.000 1	0.624 39	0.732 48	0.634 43	1.000 1	0.375 58

PE	0.645 42	1.000 1	0.773 50	0.798 28	0.538 45	0.786 46	0.088 54	0.799 10	0.350 54	0.435 52	0.547 44	0.545 35	0.646 40	0.933 49	0.562 45	0.761 41	0.556 59	0.997 43	0.501 44
Biao Zhang, Peter Wonka: Point Cloud Instance Segmentation using Probabilistic Embeddings. CVPR 2021
RPGN	0.643 43	1.000 1	0.758 55	0.582 60	0.539 44	0.826 33	0.046 59	0.765 13	0.372 52	0.436 51	0.588 35	0.539 37	0.650 29	1.000 1	0.577 43	0.750 44	0.653 39	0.997 43	0.495 45
Shichao Dong, Guosheng Lin, Tzu-Yi Hung: Learning Regional Purity for Instance Segmentation on 3D Point Clouds. ECCV 2022
Dyco3D	0.641 44	1.000 1	0.841 28	0.893 7	0.531 47	0.802 41	0.115 51	0.588 52	0.448 44	0.438 49	0.537 46	0.430 49	0.550 54	0.857 51	0.534 49	0.764 40	0.657 36	0.987 54	0.568 30
Tong He; Chunhua Shen; Anton van den Hengel: DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution. CVPR2021
GICN	0.638 45	1.000 1	0.895 19	0.800 27	0.480 56	0.676 58	0.144 44	0.737 18	0.354 53	0.447 46	0.400 60	0.365 55	0.700 16	1.000 1	0.569 44	0.836 20	0.599 46	1.000 1	0.473 48

PointGroup	0.636 46	1.000 1	0.765 51	0.624 51	0.505 54	0.797 42	0.116 50	0.696 28	0.384 51	0.441 47	0.559 42	0.476 41	0.596 48	1.000 1	0.666 30	0.756 42	0.556 58	0.997 43	0.513 40
Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia: PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation. CVPR 2020 [oral]
DD-UNet+Group	0.635 47	0.667 62	0.797 44	0.714 43	0.562 42	0.774 48	0.146 43	0.810 8	0.429 46	0.476 42	0.546 45	0.399 51	0.633 41	1.000 1	0.632 38	0.722 50	0.609 45	1.000 1	0.514 39
H. Liu, R. Liu, K. Yang, J. Zhang, K. Peng, R. Stiefelhagen: HIDA: Towards Holistic Indoor Understanding for the Visually Impaired via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor. ICCVW 2021
Mask3D_evaluation	0.631 48	1.000 1	0.829 30	0.606 53	0.646 27	0.836 31	0.068 55	0.511 59	0.462 43	0.507 38	0.619 30	0.389 53	0.610 44	1.000 1	0.432 57	0.828 25	0.673 35	0.788 70	0.552 35

DENet	0.629 49	1.000 1	0.797 43	0.608 52	0.589 38	0.627 62	0.219 38	0.882 1	0.310 56	0.402 59	0.383 62	0.396 52	0.650 29	1.000 1	0.663 32	0.543 70	0.691 33	1.000 1	0.568 31

3D-MPA	0.611 50	1.000 1	0.833 29	0.765 35	0.526 49	0.756 51	0.136 48	0.588 52	0.470 41	0.438 50	0.432 56	0.358 57	0.650 29	0.857 51	0.429 58	0.765 39	0.557 57	1.000 1	0.430 53
Francis Engelmann, Martin Bokeloh, Alireza Fathi, Bastian Leibe, Matthias Nießner: 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation. CVPR 2020
OSIS	0.605 51	1.000 1	0.801 41	0.599 55	0.535 46	0.728 55	0.286 30	0.436 66	0.679 23	0.491 39	0.433 54	0.256 59	0.404 66	0.857 51	0.620 40	0.724 49	0.510 64	1.000 1	0.539 37

AOIA	0.601 52	1.000 1	0.761 53	0.687 45	0.485 55	0.828 32	0.008 66	0.663 38	0.405 49	0.405 58	0.425 57	0.490 40	0.596 48	0.714 62	0.553 48	0.779 34	0.597 47	0.992 52	0.424 55

PCJC	0.578 53	1.000 1	0.810 35	0.583 59	0.449 59	0.813 38	0.042 60	0.603 50	0.341 55	0.490 40	0.465 51	0.410 50	0.650 29	0.835 59	0.264 68	0.694 57	0.561 55	0.889 63	0.504 43

SSEN	0.575 54	1.000 1	0.761 52	0.473 62	0.477 57	0.795 43	0.066 56	0.529 57	0.658 28	0.460 44	0.461 52	0.380 54	0.331 68	0.859 50	0.401 61	0.692 59	0.653 38	1.000 1	0.348 60
Dongsu Zhang, Junha Chun, Sang Kyun Cha, Young Min Kim: Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with Deep Metric Learning. Arxiv
RWSeg	0.567 55	0.528 72	0.708 63	0.626 50	0.580 40	0.745 54	0.063 57	0.627 46	0.240 60	0.400 60	0.497 48	0.464 42	0.515 55	1.000 1	0.475 53	0.745 45	0.571 52	1.000 1	0.429 54

NeuralBF	0.555 56	0.667 62	0.896 18	0.843 20	0.517 51	0.751 52	0.029 61	0.519 58	0.414 48	0.439 48	0.465 50	0.000 78	0.484 57	0.857 51	0.287 66	0.693 58	0.651 40	1.000 1	0.485 47
Weiwei Sun, Daniel Rebain, Renjie Liao, Vladimir Tankovich, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi: NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation on Point Clouds. WACV 2023
MTML	0.549 57	1.000 1	0.807 38	0.588 58	0.327 64	0.647 60	0.004 68	0.815 7	0.180 63	0.418 55	0.364 64	0.182 62	0.445 60	1.000 1	0.442 56	0.688 60	0.571 53	1.000 1	0.396 56
Jean Lahoud, Bernard Ghanem, Marc Pollefeys, Martin R. Oswald: 3D Instance Segmentation via Multi-task Metric Learning. ICCV 2019 [oral]
ClickSeg_Instance	0.539 58	1.000 1	0.621 67	0.300 65	0.530 48	0.698 56	0.127 49	0.533 56	0.222 61	0.430 53	0.400 59	0.365 55	0.574 52	0.938 48	0.472 54	0.659 62	0.543 60	0.944 58	0.347 61

One_Thing_One_Click	0.529 59	0.667 62	0.718 59	0.777 32	0.399 60	0.683 57	0.000 71	0.669 36	0.138 66	0.391 61	0.374 63	0.539 36	0.360 67	0.641 66	0.556 47	0.774 37	0.593 48	0.997 43	0.251 66
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
Sparse R-CNN	0.515 60	1.000 1	0.538 72	0.282 66	0.468 58	0.790 44	0.173 40	0.345 68	0.429 45	0.413 57	0.484 49	0.176 63	0.595 50	0.591 67	0.522 50	0.668 61	0.476 65	0.986 56	0.327 62

Occipital-SCS	0.512 61	1.000 1	0.716 60	0.509 61	0.506 53	0.611 63	0.092 53	0.602 51	0.177 64	0.346 64	0.383 61	0.165 64	0.442 61	0.850 58	0.386 63	0.618 66	0.543 61	0.889 63	0.389 57

3D-BoNet	0.488 62	1.000 1	0.672 66	0.590 57	0.301 66	0.484 73	0.098 52	0.620 48	0.306 57	0.341 65	0.259 68	0.125 66	0.434 63	0.796 61	0.402 60	0.499 72	0.513 63	0.909 62	0.439 52
Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen Wang, Andrew Markham, Niki Trigoni: Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds. NeurIPS 2019 Spotlight
PanopticFusion-inst	0.478 63	0.667 62	0.712 62	0.595 56	0.259 69	0.550 69	0.000 71	0.613 49	0.175 65	0.250 70	0.434 53	0.437 46	0.411 65	0.857 51	0.485 52	0.591 69	0.267 75	0.944 58	0.359 59
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
SPG_WSIS	0.470 64	0.667 62	0.685 65	0.677 47	0.372 62	0.562 67	0.000 71	0.482 63	0.244 59	0.316 67	0.298 65	0.052 73	0.442 62	0.857 51	0.267 67	0.702 54	0.559 56	1.000 1	0.287 64

SALoss-ResNet	0.459 65	1.000 1	0.737 58	0.159 76	0.259 68	0.587 65	0.138 47	0.475 64	0.217 62	0.416 56	0.408 58	0.128 65	0.315 69	0.714 62	0.411 59	0.536 71	0.590 49	0.873 67	0.304 63
Zhidong Liang, Ming Yang, Hao Li, Chunxiang Wang: 3D Instance Embedding Learning With a Structure-Aware Loss Function for Point Cloud Segmentation. IEEE Robotics and Automation Letters (IROS2020)
MASC	0.447 66	0.528 72	0.555 70	0.381 63	0.382 61	0.633 61	0.002 69	0.509 60	0.260 58	0.361 63	0.432 55	0.327 58	0.451 59	0.571 68	0.367 64	0.639 64	0.386 66	0.980 57	0.276 65
Chen Liu, Yasutaka Furukawa: MASC: Multi-scale Affinity with Sparse Convolution for 3D Instance Segmentation.
SegGroup_ins	0.445 67	0.667 62	0.773 49	0.185 73	0.317 65	0.656 59	0.000 71	0.407 67	0.134 67	0.381 62	0.267 67	0.217 61	0.476 58	0.714 62	0.452 55	0.629 65	0.514 62	1.000 1	0.222 69
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
3D-SIS	0.382 68	1.000 1	0.432 75	0.245 68	0.190 70	0.577 66	0.013 65	0.263 70	0.033 73	0.320 66	0.240 69	0.075 69	0.422 64	0.857 51	0.117 73	0.699 55	0.271 74	0.883 65	0.235 68
Ji Hou, Angela Dai, Matthias Niessner: 3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. CVPR 2019
Hier3D	0.323 69	0.667 62	0.542 71	0.264 67	0.157 73	0.550 68	0.000 71	0.205 73	0.009 75	0.270 69	0.218 70	0.075 69	0.500 56	0.688 65	0.007 79	0.698 56	0.301 71	0.459 76	0.200 70
Tan: HCFS3D: Hierarchical Coupled Feature Selection Network for 3D Semantic and Instance Segmentation.
UNet-backbone	0.319 70	0.667 62	0.715 61	0.233 69	0.189 71	0.479 74	0.008 66	0.218 71	0.067 72	0.201 72	0.173 71	0.107 67	0.123 74	0.438 70	0.150 70	0.615 67	0.355 67	0.916 61	0.093 78

R-PointNet	0.306 71	0.500 74	0.405 76	0.311 64	0.348 63	0.589 64	0.054 58	0.068 76	0.126 68	0.283 68	0.290 66	0.028 74	0.219 72	0.214 73	0.331 65	0.396 76	0.275 72	0.821 69	0.245 67

Region-18class	0.284 72	0.250 78	0.751 57	0.228 71	0.270 67	0.521 70	0.000 71	0.468 65	0.008 77	0.205 71	0.127 72	0.000 78	0.068 76	0.070 77	0.262 69	0.652 63	0.323 69	0.740 72	0.173 71

SemRegionNet-20cls	0.250 73	0.333 75	0.613 68	0.229 70	0.163 72	0.493 71	0.000 71	0.304 69	0.107 69	0.147 75	0.100 74	0.052 72	0.231 70	0.119 75	0.039 75	0.445 74	0.325 68	0.654 73	0.141 74

tmp	0.248 74	0.667 62	0.437 74	0.188 72	0.153 74	0.491 72	0.000 71	0.208 72	0.094 71	0.153 74	0.099 75	0.057 71	0.217 73	0.119 75	0.039 75	0.466 73	0.302 70	0.640 74	0.140 75

3D-BEVIS	0.248 74	0.667 62	0.566 69	0.076 77	0.035 79	0.394 77	0.027 63	0.035 78	0.098 70	0.099 77	0.030 78	0.025 75	0.098 75	0.375 72	0.126 72	0.604 68	0.181 77	0.854 68	0.171 72
Cathrin Elich, Francis Engelmann, Jonas Schult, Theodora Kontogianni, Bastian Leibe: 3D-BEVIS: Birds-Eye-View Instance Segmentation.
Sem_Recon_ins	0.227 76	0.764 61	0.486 73	0.069 78	0.098 76	0.426 76	0.017 64	0.067 77	0.015 74	0.172 73	0.100 73	0.096 68	0.054 78	0.183 74	0.135 71	0.366 77	0.260 76	0.614 75	0.168 73

ASIS	0.199 77	0.333 75	0.253 78	0.167 75	0.140 75	0.438 75	0.000 71	0.177 74	0.008 76	0.121 76	0.069 76	0.004 77	0.231 71	0.429 71	0.036 77	0.445 75	0.273 73	0.333 78	0.119 77

Sgpn_scannet	0.143 78	0.208 79	0.390 77	0.169 74	0.065 77	0.275 78	0.029 62	0.069 75	0.000 78	0.087 78	0.043 77	0.014 76	0.027 79	0.000 78	0.112 74	0.351 78	0.168 78	0.438 77	0.138 76

MaskRCNN 2d->3d Proj	0.058 79	0.333 75	0.002 79	0.000 79	0.053 78	0.002 79	0.002 70	0.021 79	0.000 78	0.045 79	0.024 79	0.238 60	0.065 77	0.000 78	0.014 78	0.107 79	0.020 79	0.110 79	0.006 79

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

Virtual MVFusion (R)	0.745 1	0.861 1	0.839 1	0.881 1	0.672 2	0.512 1	0.422 19	0.898 1	0.723 1	0.714 1	0.954 2	0.454 1	0.509 1	0.773 1	0.895 1	0.756 1	0.820 1	0.653 1	0.935 1	0.891 1	0.728 1
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
BPNet_2D	0.670 2	0.822 3	0.795 3	0.836 2	0.659 3	0.481 2	0.451 15	0.769 5	0.656 3	0.567 4	0.931 3	0.395 6	0.390 6	0.700 4	0.534 4	0.689 11	0.770 2	0.574 3	0.865 11	0.831 3	0.675 6
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia and Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MVF-GNN（2D）	0.636 3	0.606 16	0.794 4	0.434 17	0.688 1	0.337 8	0.464 14	0.798 4	0.632 5	0.589 3	0.908 9	0.420 2	0.329 14	0.743 2	0.594 2	0.738 2	0.676 5	0.527 4	0.906 2	0.818 6	0.715 3

CU-Hybrid-2D Net	0.636 3	0.825 2	0.820 2	0.179 25	0.648 4	0.463 3	0.549 2	0.742 9	0.676 2	0.628 2	0.961 1	0.420 2	0.379 7	0.684 8	0.381 20	0.732 3	0.723 3	0.599 2	0.827 18	0.851 2	0.634 9

DVEFormer	0.626 5	0.616 12	0.764 6	0.690 5	0.583 11	0.322 14	0.540 3	0.809 3	0.593 7	0.502 12	0.900 14	0.374 9	0.433 3	0.660 9	0.528 5	0.665 19	0.663 6	0.491 9	0.871 10	0.810 9	0.705 4

CMX	0.613 6	0.681 9	0.725 13	0.502 13	0.634 6	0.297 19	0.478 12	0.830 2	0.651 4	0.537 7	0.924 4	0.375 7	0.315 16	0.686 7	0.451 15	0.714 5	0.543 23	0.504 6	0.894 7	0.823 5	0.688 5

DMMF_3d	0.605 7	0.651 10	0.744 11	0.782 3	0.637 5	0.387 4	0.536 5	0.732 10	0.590 8	0.540 6	0.856 23	0.359 12	0.306 17	0.596 16	0.539 3	0.627 22	0.706 4	0.497 8	0.785 23	0.757 21	0.476 24

EMSANet	0.600 8	0.716 4	0.746 10	0.395 20	0.614 9	0.382 5	0.523 6	0.713 13	0.571 12	0.503 10	0.922 7	0.404 5	0.397 5	0.655 10	0.400 17	0.626 23	0.663 6	0.469 14	0.900 4	0.827 4	0.577 16
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
MCA-Net	0.595 9	0.533 22	0.756 9	0.746 4	0.590 10	0.334 10	0.506 9	0.670 17	0.587 9	0.500 13	0.905 11	0.366 11	0.352 10	0.601 15	0.506 9	0.669 17	0.648 10	0.501 7	0.839 17	0.769 17	0.516 23

RFBNet	0.592 10	0.616 12	0.758 8	0.659 6	0.581 12	0.330 11	0.469 13	0.655 20	0.543 15	0.524 8	0.924 4	0.355 14	0.336 12	0.572 19	0.479 11	0.671 15	0.648 10	0.480 11	0.814 21	0.814 7	0.614 12

FAN_NV_RVC	0.586 11	0.510 23	0.764 6	0.079 28	0.620 8	0.330 11	0.494 10	0.753 7	0.573 10	0.556 5	0.884 18	0.405 4	0.303 18	0.718 3	0.452 14	0.672 14	0.658 8	0.509 5	0.898 5	0.813 8	0.727 2

WSGFormer	0.585 12	0.706 5	0.708 18	0.434 17	0.574 14	0.283 22	0.538 4	0.759 6	0.542 17	0.482 17	0.924 4	0.351 16	0.333 13	0.614 12	0.393 18	0.692 10	0.551 22	0.461 15	0.874 9	0.809 10	0.673 7

DCRedNet	0.583 13	0.682 8	0.723 14	0.542 12	0.510 22	0.310 16	0.451 15	0.668 18	0.549 14	0.520 9	0.920 8	0.375 7	0.446 2	0.528 22	0.417 16	0.670 16	0.577 19	0.478 12	0.862 12	0.806 11	0.628 11

MIX6D_RVC	0.582 14	0.695 6	0.687 19	0.225 23	0.632 7	0.328 13	0.550 1	0.748 8	0.623 6	0.494 16	0.890 16	0.350 17	0.254 25	0.688 6	0.454 13	0.716 4	0.597 18	0.489 10	0.881 8	0.768 18	0.575 17

SSMA	0.577 15	0.695 6	0.716 16	0.439 15	0.563 16	0.314 15	0.444 17	0.719 11	0.551 13	0.503 10	0.887 17	0.346 18	0.348 11	0.603 14	0.353 22	0.709 6	0.600 16	0.457 16	0.901 3	0.786 13	0.599 15
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
DMMF	0.567 16	0.623 11	0.767 5	0.238 22	0.571 15	0.347 6	0.413 21	0.719 11	0.472 22	0.418 24	0.895 15	0.357 13	0.260 24	0.696 5	0.523 8	0.666 18	0.642 12	0.437 20	0.895 6	0.793 12	0.603 14

UNIV_CNP_RVC_UE	0.566 17	0.569 21	0.686 21	0.435 16	0.524 19	0.294 20	0.421 20	0.712 14	0.543 15	0.463 19	0.872 19	0.320 19	0.363 9	0.611 13	0.477 12	0.686 12	0.627 13	0.443 19	0.862 12	0.775 16	0.639 8

EMSAFormer	0.564 18	0.581 18	0.736 12	0.564 11	0.546 18	0.219 25	0.517 7	0.675 16	0.486 21	0.427 23	0.904 12	0.352 15	0.320 15	0.589 17	0.528 5	0.708 7	0.464 26	0.413 24	0.847 16	0.786 13	0.611 13

SN_RN152pyrx8_RVC	0.546 19	0.572 19	0.663 23	0.638 8	0.518 20	0.298 18	0.366 26	0.633 23	0.510 19	0.446 21	0.864 21	0.296 22	0.267 21	0.542 21	0.346 23	0.704 8	0.575 20	0.431 21	0.853 15	0.766 19	0.630 10

UDSSEG_RVC	0.545 20	0.610 15	0.661 24	0.588 9	0.556 17	0.268 23	0.482 11	0.642 22	0.572 11	0.475 18	0.836 25	0.312 20	0.367 8	0.630 11	0.189 25	0.639 21	0.495 25	0.452 17	0.826 19	0.756 22	0.541 19

segfomer with 6d	0.542 21	0.594 17	0.687 19	0.146 26	0.579 13	0.308 17	0.515 8	0.703 15	0.472 22	0.498 14	0.868 20	0.369 10	0.282 19	0.589 17	0.390 19	0.701 9	0.556 21	0.416 23	0.860 14	0.759 20	0.539 21

FuseNet	0.535 22	0.570 20	0.681 22	0.182 24	0.512 21	0.290 21	0.431 18	0.659 19	0.504 20	0.495 15	0.903 13	0.308 21	0.428 4	0.523 23	0.365 21	0.676 13	0.621 15	0.470 13	0.762 24	0.779 15	0.541 19
Caner Hazirbas, Lingni Ma, Csaba Domokos, Daniel Cremers: FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. ACCV 2016
AdapNet++	0.503 23	0.613 14	0.722 15	0.418 19	0.358 28	0.337 8	0.370 25	0.479 26	0.443 24	0.368 26	0.907 10	0.207 25	0.213 27	0.464 26	0.525 7	0.618 24	0.657 9	0.450 18	0.788 22	0.721 25	0.408 27
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
3DMV (2d proj)	0.498 24	0.481 26	0.612 25	0.579 10	0.456 24	0.343 7	0.384 23	0.623 24	0.525 18	0.381 25	0.845 24	0.254 24	0.264 23	0.557 20	0.182 26	0.581 26	0.598 17	0.429 22	0.760 25	0.661 27	0.446 26
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
MSeg1080_RVC	0.485 25	0.505 24	0.709 17	0.092 27	0.427 25	0.241 24	0.411 22	0.654 21	0.385 28	0.457 20	0.861 22	0.053 28	0.279 20	0.503 24	0.481 10	0.645 20	0.626 14	0.365 26	0.748 26	0.725 24	0.529 22
John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun: MSeg: A Composite Dataset for Multi-domain Semantic Segmentation. CVPR 2020
ILC-PSPNet	0.475 26	0.490 25	0.581 26	0.289 21	0.507 23	0.067 28	0.379 24	0.610 25	0.417 26	0.435 22	0.822 27	0.278 23	0.267 21	0.503 24	0.228 24	0.616 25	0.533 24	0.375 25	0.820 20	0.729 23	0.560 18

Enet (reimpl)	0.376 27	0.264 28	0.452 28	0.452 14	0.365 26	0.181 26	0.143 28	0.456 27	0.409 27	0.346 27	0.769 28	0.164 26	0.218 26	0.359 27	0.123 28	0.403 28	0.381 28	0.313 28	0.571 27	0.685 26	0.472 25
Re-implementation of Adam Paszke, Abhishek Chaurasia, Sangpil Kim, Eugenio Culurciello: ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation.
ScanNet (2d proj)	0.330 28	0.293 27	0.521 27	0.657 7	0.361 27	0.161 27	0.250 27	0.004 28	0.440 25	0.183 28	0.836 25	0.125 27	0.060 28	0.319 28	0.132 27	0.417 27	0.412 27	0.344 27	0.541 28	0.427 28	0.109 28
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

EMSANet (Instance)	0.241 1	0.401 1	0.439 1	0.085 1	0.242 1	0.220 1	0.081 1	0.289 2	0.117 2	0.121 1	0.182 1	0.126 1	0.346 1	0.181 2	0.181 2	0.358 1	0.156 1	0.675 2	0.131 1
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
UniDet_RVC	0.205 2	0.381 2	0.323 3	0.037 3	0.226 3	0.177 3	0.063 2	0.277 3	0.120 1	0.067 3	0.131 3	0.074 3	0.317 2	0.080 3	0.235 1	0.289 3	0.141 3	0.678 1	0.080 3

FKNet	0.204 3	0.334 3	0.358 2	0.038 2	0.234 2	0.184 2	0.025 3	0.318 1	0.042 4	0.088 2	0.141 2	0.053 4	0.300 3	0.207 1	0.171 3	0.292 2	0.149 2	0.636 3	0.109 2

MaskRCNN_ScanNet	0.119 4	0.129 4	0.212 4	0.002 4	0.112 4	0.148 4	0.014 4	0.205 4	0.044 3	0.066 4	0.078 4	0.095 2	0.142 4	0.030 4	0.128 4	0.139 4	0.080 4	0.459 4	0.057 4
Re-implementation of Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick: Mask R-CNN. ICCV'17

Presenting the ScanNet200 Benchmark

ScanNet200 Benchmark

ScanNet200 3D Semantic Label Benchmark

ScanNet200 3D Semantic Instance Benchmark

ScanNet Benchmark

3D Semantic Label Benchmark

3D Semantic Instance Benchmark

2D Semantic Label Benchmark

2D Semantic Instance Benchmark

Scene Type Classification Benchmark

Method	avg recall	apartment	bathroom	bedroom / hotel	bookstore / library	conference room	copy/mail room	hallway	kitchen	laundry room	living room / lounge	misc	office	storage / basement / garage

LAST-PCL-type	0.780 1	0.250 3	1.000 1	1.000 1	1.000 1	1.000 1	1.000 1	0.500 2	1.000 1	0.500 2	0.889 1	0.000 2	1.000 1	1.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang: Language-Assisted 3D Scene Understanding. arxiv23.12
multi-task	0.700 2	0.500 1	1.000 1	0.882 3	0.500 3	1.000 1	1.000 1	0.500 2	1.000 1	1.000 1	0.778 2	0.000 2	0.938 2	0.000 3
Shengyu Huang, Mikhail Usvyatsov, Konrad Schindler: Indoor Scene Recognition in 3D. IROS 2020
3DASPP-SCE	0.691 3	0.500 1	0.938 3	0.824 4	1.000 1	1.000 1	0.500 3	1.000 1	0.857 3	0.500 2	0.556 4	0.000 2	0.812 3	0.500 2

SE-ResNeXt-SSMA	0.498 4	0.000 5	0.812 4	0.941 2	0.500 3	0.500 4	0.500 3	0.500 2	0.429 5	0.500 2	0.667 3	0.500 1	0.625 4	0.000 3
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. arXiv
resnet50_scannet	0.353 5	0.250 3	0.812 4	0.529 5	0.500 3	0.500 4	0.000 5	0.500 2	0.571 4	0.000 5	0.556 4	0.000 2	0.375 5	0.000 3