Benchmark Results - ScanNet Benchmark

This table lists the benchmark results for the ScanNet200 3D semantic label scenario.

Method	avg iou	head iou	common iou	tail iou	wall	chair	floor	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

ODIN - Sem200	0.368 4	0.562 4	0.297 4	0.207 4	0.800 10	0.669 13	0.940 10	0.575 3	0.654 9	0.749 8	0.487 3	0.589 1	0.609 2	0.001 12	0.769 12	0.561 8	0.752 6	0.274 5	0.682 6	0.926 13	0.554 4	0.833 14	0.921 4	0.389 2	0.599 10	0.591 1	0.787 8	0.550 2	0.657 5	0.610 4	0.334 13	0.803 8	0.661 4	0.090 6	0.408 7	0.373 15	0.000 1	0.912 2	0.796 17	0.501 17	0.169 8	0.000 7	0.641 4	0.196 1	0.380 17	0.397 3	0.641 5	0.740 9	0.862 1	0.213 3	0.857 6	0.685 7	0.216 1	0.578 16	0.557 10	0.685 5	0.523 8	0.581 16	0.312 3	0.000 3	0.065 15	0.000 17	0.871 3	0.359 8	0.988 2	0.321 2	0.090 16	0.704 6	0.631 2	0.393 15	0.246 11	0.000 1	0.482 8	0.565 15	0.000 4	0.000 9	0.000 1	0.181 1	0.913 1	0.468 16	0.632 8	0.642 5	0.259 11	0.000 17	0.832 1	0.663 1	0.000 3	0.081 1	0.000 1	0.048 2	0.000 4	0.376 1	0.898 7	0.000 1	0.157 1	0.000 10	0.870 3	0.000 17	0.400 5	0.265 4	0.242 5	0.227 6	0.539 1	0.370 14	0.214 13	0.129 10	0.000 4	0.131 10	0.054 17	0.000 3	0.358 9	0.491 1	0.462 4	0.434 3	0.346 15	0.454 15	0.316 2	0.814 1	0.828 2	0.000 1	0.000 17	0.220 17	0.612 11	0.000 1	0.000 11	0.373 2	0.378 2	0.000 7	0.429 4	0.152 11	0.077 9	0.166 4	0.202 5	0.000 1	0.000 5	0.441 14	0.000 1	0.440 6	0.000 1	0.000 12	0.655 1	0.000 1	0.626 7	0.000 1	0.000 1	0.228 9	0.487 1	0.784 16	0.000 9	0.301 3	0.000 1	0.426 2	0.000 1	0.108 9	0.460 13	0.590 4	0.775 1	0.088 6	0.119 15	0.485 9	0.791 1	0.000 12	0.000 1	0.256 17	0.000 2	0.000 2	0.000 11	0.885 3	0.303 1	0.000 1	0.000 1	0.127 16	0.000 7	0.000 3	0.894 2	0.000 1
Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki: ODIN: A Single Model for 2D and 3D Segmentation. CVPR 2024
ALS-MinkowskiNet	0.414 2	0.610 2	0.322 3	0.271 2	0.852 1	0.710 2	0.973 1	0.572 4	0.719 3	0.795 2	0.477 6	0.506 2	0.601 3	0.000 14	0.804 5	0.646 3	0.804 2	0.344 2	0.777 1	0.984 1	0.671 1	0.879 2	0.936 1	0.342 5	0.632 7	0.449 4	0.817 3	0.475 10	0.723 2	0.798 1	0.376 8	0.832 2	0.693 1	0.031 9	0.564 1	0.510 13	0.000 1	0.893 3	0.905 1	0.672 16	0.314 1	0.000 7	0.718 1	0.153 3	0.542 2	0.397 3	0.726 3	0.752 8	0.252 8	0.226 2	0.916 2	0.800 1	0.047 16	0.807 3	0.769 1	0.709 3	0.630 3	0.769 1	0.217 10	0.000 3	0.285 1	0.598 4	0.846 10	0.535 1	0.956 4	0.000 7	0.137 11	0.784 2	0.464 7	0.463 13	0.230 12	0.000 1	0.598 3	0.662 9	0.000 4	0.087 2	0.000 1	0.135 3	0.900 2	0.780 11	0.703 2	0.741 1	0.571 2	0.149 9	0.697 7	0.646 2	0.000 3	0.076 2	0.000 1	0.025 11	0.000 4	0.106 6	0.981 1	0.000 1	0.043 7	0.113 4	0.888 2	0.248 15	0.404 4	0.252 6	0.314 1	0.220 7	0.245 2	0.466 7	0.366 2	0.159 2	0.000 4	0.149 8	0.690 2	0.000 3	0.531 5	0.253 3	0.285 6	0.460 1	0.440 5	0.813 1	0.230 3	0.283 6	0.159 11	0.000 1	0.728 1	0.666 5	0.958 1	0.000 1	0.021 5	0.252 8	0.118 5	0.000 7	0.445 3	0.223 10	0.285 1	0.194 3	0.390 2	0.000 1	0.475 4	0.842 7	0.000 1	0.455 3	0.000 1	0.250 7	0.458 8	0.000 1	0.865 1	0.000 1	0.000 1	0.635 1	0.359 5	0.972 1	0.087 3	0.447 1	0.000 1	0.000 9	0.000 1	0.129 2	0.532 6	0.446 8	0.503 5	0.071 13	0.135 12	0.699 4	0.717 2	0.097 2	0.000 1	0.665 1	0.000 2	0.000 2	1.000 1	0.752 6	0.000 3	0.000 1	0.000 1	0.142 9	0.200 1	0.259 1	1.000 1	0.000 1
Guangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum: ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding. CVPR 2025
DITR	0.449 1	0.629 1	0.392 1	0.289 1	0.851 2	0.727 1	0.969 4	0.600 1	0.741 2	0.805 1	0.519 1	0.480 3	0.636 1	0.014 10	0.867 1	0.680 1	0.849 1	0.318 3	0.753 2	0.982 2	0.508 12	0.871 6	0.934 2	0.482 1	0.596 11	0.551 2	0.804 4	0.508 6	0.729 1	0.718 2	0.417 4	0.886 1	0.664 3	0.000 17	0.500 2	0.698 1	0.000 1	0.913 1	0.901 3	0.766 7	0.113 12	0.000 7	0.617 5	0.168 2	0.650 1	0.477 1	0.826 1	0.962 1	0.348 3	0.300 1	0.947 1	0.776 2	0.160 3	0.889 1	0.651 5	0.720 2	0.700 1	0.728 3	0.317 1	0.000 3	0.238 5	0.664 1	0.869 4	0.514 2	0.998 1	0.313 3	0.138 10	0.815 1	0.828 1	0.622 2	0.421 5	0.000 1	0.823 1	0.817 1	0.000 4	0.000 9	0.000 1	0.157 2	0.866 3	0.991 1	0.805 1	0.660 4	0.571 2	0.043 12	0.709 6	0.642 3	0.000 3	0.000 7	0.000 1	0.028 10	0.018 3	0.134 3	0.967 2	0.000 1	0.150 2	0.130 2	0.949 1	0.855 1	0.580 1	0.262 5	0.314 1	0.230 5	0.222 4	0.498 5	0.367 1	0.153 3	0.869 1	0.334 2	0.397 8	0.000 3	0.904 1	0.486 2	1.000 1	0.423 4	0.484 1	0.632 6	0.716 1	0.733 2	0.862 1	0.000 1	0.433 14	0.710 1	0.851 2	0.000 1	0.034 4	0.315 3	0.385 1	0.000 7	0.001 9	0.268 9	0.066 11	0.000 8	0.278 4	0.000 1	0.978 1	0.839 8	0.000 1	0.448 4	0.000 1	0.579 1	0.403 12	0.000 1	0.647 3	0.000 1	0.000 1	0.411 3	0.315 6	0.904 7	0.420 1	0.392 2	0.000 1	0.091 6	0.000 1	0.128 3	0.564 3	0.591 3	0.568 2	0.079 9	0.139 9	1.000 1	0.714 3	0.178 1	0.000 1	0.606 3	0.000 2	0.000 2	0.148 6	0.983 1	0.000 3	0.000 1	0.000 1	0.374 2	0.000 7	0.000 3	0.662 4	0.000 1
Karim Abou Zeid, Kadir Yilmaz, Daan de Geus, Alexander Hermans, David Adrian, Timm Linder, Bastian Leibe: DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation.
OA-CNN-L_ScanNet200	0.333 11	0.558 5	0.269 9	0.124 13	0.821 5	0.703 3	0.946 6	0.569 5	0.662 4	0.748 9	0.487 3	0.455 4	0.572 7	0.000 14	0.789 9	0.534 9	0.736 9	0.271 8	0.713 4	0.949 6	0.498 14	0.877 3	0.860 11	0.332 7	0.706 1	0.474 3	0.788 7	0.406 13	0.637 6	0.495 11	0.355 11	0.805 7	0.592 12	0.015 13	0.396 8	0.602 6	0.000 1	0.799 11	0.876 7	0.713 13	0.276 2	0.000 7	0.493 13	0.080 9	0.448 14	0.363 5	0.661 4	0.833 6	0.262 6	0.125 7	0.823 12	0.665 9	0.076 9	0.720 8	0.557 10	0.637 9	0.517 9	0.672 10	0.227 8	0.000 3	0.158 12	0.496 8	0.843 11	0.352 10	0.835 13	0.000 7	0.103 14	0.711 5	0.527 4	0.526 6	0.320 8	0.000 1	0.568 6	0.625 11	0.067 1	0.000 9	0.000 1	0.001 5	0.806 6	0.836 7	0.621 10	0.591 8	0.373 8	0.314 5	0.668 10	0.398 9	0.003 2	0.000 7	0.000 1	0.016 16	0.024 2	0.043 13	0.906 6	0.000 1	0.052 6	0.000 10	0.384 12	0.330 12	0.342 8	0.100 12	0.223 7	0.183 13	0.112 7	0.476 6	0.313 7	0.130 9	0.196 3	0.112 12	0.370 11	0.000 3	0.234 12	0.071 9	0.160 7	0.403 6	0.398 13	0.492 14	0.197 6	0.076 13	0.272 5	0.000 1	0.200 16	0.560 10	0.735 7	0.000 1	0.000 11	0.000 12	0.110 8	0.002 6	0.021 8	0.412 5	0.000 12	0.000 8	0.000 11	0.000 1	0.000 5	0.794 11	0.000 1	0.445 5	0.000 1	0.022 10	0.509 7	0.000 1	0.517 13	0.000 1	0.000 1	0.001 17	0.245 7	0.915 5	0.024 6	0.089 7	0.000 1	0.262 3	0.000 1	0.103 11	0.524 7	0.392 11	0.515 4	0.013 17	0.251 4	0.411 13	0.662 4	0.001 11	0.000 1	0.473 12	0.000 2	0.000 2	0.150 5	0.699 9	0.000 3	0.000 1	0.000 1	0.166 6	0.000 7	0.024 2	0.000 11	0.000 1

BFANet ScanNet200	0.360 5	0.553 7	0.293 5	0.193 5	0.827 4	0.689 4	0.970 3	0.528 13	0.661 6	0.753 6	0.436 8	0.378 8	0.469 15	0.042 7	0.810 3	0.654 2	0.760 4	0.266 10	0.659 10	0.973 4	0.574 3	0.849 11	0.897 5	0.382 3	0.546 13	0.372 9	0.698 14	0.491 9	0.617 10	0.526 10	0.436 1	0.764 14	0.476 17	0.101 5	0.409 6	0.585 10	0.000 1	0.835 6	0.901 3	0.810 5	0.102 14	0.000 7	0.688 2	0.096 6	0.483 10	0.264 12	0.612 9	0.591 16	0.358 2	0.161 6	0.863 5	0.707 4	0.128 4	0.814 2	0.669 4	0.629 10	0.563 4	0.651 14	0.258 5	0.000 3	0.194 10	0.494 9	0.806 12	0.394 6	0.953 5	0.000 7	0.233 1	0.757 4	0.508 6	0.556 4	0.476 4	0.000 1	0.573 5	0.741 6	0.000 4	0.000 9	0.000 1	0.000 6	0.000 17	0.852 5	0.678 3	0.616 6	0.460 5	0.338 3	0.710 5	0.534 5	0.000 3	0.025 4	0.000 1	0.043 3	0.000 4	0.056 12	0.493 17	0.000 1	0.000 10	0.109 5	0.785 7	0.590 6	0.298 13	0.282 3	0.143 13	0.262 4	0.053 11	0.526 4	0.337 5	0.215 1	0.000 4	0.135 9	0.510 4	0.000 3	0.596 4	0.043 14	0.511 3	0.321 12	0.459 3	0.772 2	0.124 13	0.060 14	0.266 6	0.000 1	0.574 9	0.568 9	0.653 10	0.000 1	0.093 1	0.298 4	0.239 3	0.000 7	0.516 2	0.129 14	0.284 2	0.000 8	0.431 1	0.000 1	0.000 5	0.848 6	0.000 1	0.492 1	0.000 1	0.376 3	0.522 6	0.000 1	0.469 17	0.000 1	0.000 1	0.330 6	0.151 10	0.875 14	0.000 9	0.254 4	0.000 1	0.000 9	0.000 1	0.088 13	0.661 1	0.481 5	0.255 12	0.105 1	0.139 9	0.666 5	0.641 5	0.000 12	0.000 1	0.614 2	0.000 2	0.000 2	0.000 11	0.921 2	0.000 3	0.000 1	0.000 1	0.497 1	0.000 7	0.000 3	0.000 11	0.000 1
Weiguang Zhao, Rui Zhang, Qiufeng Wang, Guangliang Cheng, Kaizhu Huang: BFANet: Revisiting 3D Semantic Segmentation with Boundary Feature Analysis. CVPR 2025
IMFSegNet	0.334 9	0.532 13	0.251 11	0.179 7	0.799 11	0.683 8	0.940 10	0.555 8	0.631 12	0.740 11	0.406 10	0.336 13	0.560 9	0.062 4	0.795 7	0.518 12	0.733 10	0.274 5	0.646 13	0.947 8	0.458 17	0.848 13	0.862 10	0.305 10	0.649 4	0.284 13	0.713 13	0.495 8	0.626 8	0.527 9	0.363 9	0.820 5	0.574 13	0.010 14	0.411 4	0.597 7	0.000 1	0.842 4	0.873 9	0.704 14	0.246 4	0.000 7	0.495 11	0.041 16	0.486 9	0.305 7	0.444 12	0.604 15	0.134 16	0.055 16	0.852 9	0.633 13	0.076 9	0.792 4	0.612 8	0.573 17	0.484 12	0.668 12	0.216 12	0.000 3	0.197 9	0.518 6	0.784 13	0.344 12	0.908 7	0.283 4	0.190 4	0.599 13	0.439 10	0.496 10	0.569 2	0.000 1	0.392 9	0.776 3	0.000 4	0.064 4	0.000 1	0.000 6	0.710 9	0.756 12	0.508 11	0.512 16	0.159 15	0.034 14	0.773 2	0.363 10	0.000 3	0.000 7	0.000 1	0.032 7	0.000 4	0.029 16	0.648 16	0.000 1	0.000 10	0.000 10	0.830 6	0.595 4	0.274 15	0.228 8	0.206 8	0.188 12	0.000 14	0.425 9	0.237 11	0.123 12	0.000 4	0.277 6	0.214 14	0.003 1	0.610 2	0.044 12	0.124 10	0.320 14	0.408 11	0.594 9	0.196 7	0.213 7	0.139 13	0.000 1	0.615 6	0.618 6	0.839 3	0.000 1	0.014 6	0.260 6	0.080 12	0.025 2	0.000 10	0.139 12	0.135 5	0.035 7	0.000 11	0.000 1	0.793 2	0.799 9	0.000 1	0.357 13	0.000 1	0.369 5	0.359 13	0.000 1	0.512 15	0.000 1	0.000 1	0.120 12	0.424 2	0.903 8	0.027 5	0.091 6	0.000 1	0.245 5	0.000 1	0.073 16	0.457 14	0.340 12	0.191 15	0.021 15	0.009 17	0.322 15	0.608 6	0.060 3	0.000 1	0.494 10	0.000 2	0.000 2	0.068 10	0.624 11	0.000 3	0.000 1	0.000 1	0.139 11	0.047 4	0.000 3	0.561 7	0.000 1

GSTran	0.334 10	0.533 12	0.250 12	0.179 8	0.799 11	0.684 7	0.940 10	0.554 9	0.633 11	0.741 10	0.405 11	0.337 12	0.560 9	0.060 5	0.794 8	0.517 13	0.732 11	0.274 5	0.647 12	0.948 7	0.459 16	0.849 11	0.864 9	0.306 9	0.648 5	0.282 14	0.717 12	0.496 7	0.624 9	0.533 8	0.363 9	0.821 4	0.573 14	0.009 15	0.411 4	0.593 9	0.000 1	0.841 5	0.873 9	0.704 14	0.242 5	0.000 7	0.495 11	0.041 16	0.487 8	0.304 8	0.439 13	0.613 13	0.133 17	0.055 16	0.853 8	0.634 12	0.075 12	0.791 5	0.601 9	0.574 16	0.483 13	0.669 11	0.217 10	0.000 3	0.198 8	0.518 6	0.782 14	0.345 11	0.914 6	0.273 5	0.193 3	0.598 14	0.440 9	0.499 8	0.570 1	0.000 1	0.381 11	0.775 4	0.000 4	0.063 5	0.000 1	0.000 6	0.712 8	0.752 13	0.507 12	0.512 16	0.158 16	0.036 13	0.773 2	0.361 11	0.000 3	0.000 7	0.000 1	0.032 7	0.000 4	0.032 15	0.651 15	0.000 1	0.000 10	0.000 10	0.831 5	0.595 4	0.273 16	0.229 7	0.200 9	0.191 10	0.000 14	0.425 9	0.233 12	0.125 11	0.000 4	0.279 5	0.213 15	0.003 1	0.608 3	0.044 12	0.138 9	0.321 12	0.408 11	0.593 10	0.198 5	0.205 8	0.139 13	0.000 1	0.614 7	0.609 7	0.838 4	0.000 1	0.014 6	0.260 6	0.080 12	0.010 5	0.000 10	0.136 13	0.136 4	0.047 6	0.000 11	0.000 1	0.787 3	0.797 10	0.000 1	0.354 14	0.000 1	0.372 4	0.357 14	0.000 1	0.507 16	0.000 1	0.000 1	0.121 11	0.423 3	0.903 8	0.028 4	0.089 7	0.000 1	0.252 4	0.000 1	0.072 17	0.465 12	0.340 12	0.189 16	0.020 16	0.011 16	0.320 16	0.606 7	0.060 3	0.000 1	0.496 9	0.000 2	0.000 2	0.070 9	0.618 13	0.000 3	0.000 1	0.000 1	0.139 11	0.047 4	0.000 3	0.558 8	0.000 1

PTv3 ScanNet200	0.393 3	0.592 3	0.330 2	0.216 3	0.851 2	0.687 6	0.971 2	0.586 2	0.755 1	0.752 7	0.505 2	0.404 7	0.575 5	0.000 14	0.848 2	0.616 4	0.761 3	0.349 1	0.738 3	0.978 3	0.546 6	0.860 8	0.926 3	0.346 4	0.654 3	0.384 7	0.828 1	0.523 4	0.699 3	0.583 6	0.387 7	0.822 3	0.688 2	0.118 4	0.474 3	0.603 5	0.000 1	0.832 8	0.903 2	0.753 9	0.140 10	0.000 7	0.650 3	0.109 5	0.520 3	0.457 2	0.497 10	0.871 4	0.281 4	0.192 5	0.887 4	0.748 3	0.168 2	0.727 7	0.733 2	0.740 1	0.644 2	0.714 5	0.190 13	0.000 3	0.256 3	0.449 10	0.914 1	0.514 2	0.759 15	0.337 1	0.172 6	0.692 7	0.617 3	0.636 1	0.325 7	0.000 1	0.641 2	0.782 2	0.000 4	0.065 3	0.000 1	0.000 6	0.842 4	0.903 2	0.661 4	0.662 3	0.612 1	0.405 2	0.731 4	0.566 4	0.000 3	0.000 7	0.000 1	0.017 15	0.301 1	0.088 7	0.941 3	0.000 1	0.077 4	0.000 10	0.717 8	0.790 2	0.310 12	0.026 17	0.264 4	0.349 1	0.220 5	0.397 12	0.366 2	0.115 13	0.000 4	0.337 1	0.463 6	0.000 3	0.531 5	0.218 4	0.593 2	0.455 2	0.469 2	0.708 3	0.210 4	0.592 4	0.108 16	0.000 1	0.728 1	0.682 3	0.671 8	0.000 1	0.000 11	0.407 1	0.136 4	0.022 3	0.575 1	0.436 4	0.259 3	0.428 1	0.048 6	0.000 1	0.000 5	0.879 5	0.000 1	0.480 2	0.000 1	0.133 9	0.597 2	0.000 1	0.690 2	0.000 1	0.000 1	0.009 16	0.000 15	0.921 3	0.000 9	0.151 5	0.000 1	0.000 9	0.000 1	0.109 8	0.494 11	0.622 2	0.394 9	0.073 12	0.141 7	0.798 2	0.528 8	0.026 5	0.000 1	0.551 5	0.000 2	0.000 2	0.134 7	0.717 8	0.000 3	0.000 1	0.000 1	0.188 4	0.000 7	0.000 3	0.791 3	0.000 1
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
PonderV2 ScanNet200	0.346 6	0.552 8	0.270 8	0.175 9	0.810 7	0.682 9	0.950 5	0.560 7	0.641 10	0.761 3	0.398 13	0.357 10	0.570 8	0.113 2	0.804 5	0.603 6	0.750 7	0.283 4	0.681 7	0.952 5	0.548 5	0.874 4	0.852 13	0.290 12	0.700 2	0.356 11	0.792 5	0.445 12	0.545 13	0.436 12	0.351 12	0.787 10	0.611 8	0.050 8	0.290 14	0.519 12	0.000 1	0.825 10	0.888 5	0.842 3	0.259 3	0.100 2	0.558 7	0.070 12	0.497 7	0.247 14	0.457 11	0.889 3	0.248 9	0.106 10	0.817 13	0.691 6	0.094 7	0.729 6	0.636 6	0.620 12	0.503 11	0.660 13	0.243 7	0.000 3	0.212 7	0.590 5	0.860 8	0.400 5	0.881 9	0.000 7	0.202 2	0.622 10	0.408 11	0.499 8	0.261 10	0.000 1	0.385 10	0.636 10	0.000 4	0.000 9	0.000 1	0.000 6	0.433 16	0.843 6	0.660 6	0.574 12	0.481 4	0.336 4	0.677 9	0.486 6	0.000 3	0.030 3	0.000 1	0.034 6	0.000 4	0.080 8	0.869 10	0.000 1	0.000 10	0.000 10	0.540 10	0.727 3	0.232 17	0.115 11	0.186 10	0.193 9	0.000 14	0.403 11	0.326 6	0.103 14	0.000 4	0.290 4	0.392 9	0.000 3	0.346 10	0.062 10	0.424 5	0.375 7	0.431 6	0.667 4	0.115 14	0.082 12	0.239 7	0.000 1	0.504 12	0.606 8	0.584 12	0.000 1	0.002 9	0.186 10	0.104 10	0.000 7	0.394 5	0.384 6	0.083 8	0.000 8	0.007 9	0.000 1	0.000 5	0.880 4	0.000 1	0.377 10	0.000 1	0.263 6	0.565 3	0.000 1	0.608 9	0.000 1	0.000 1	0.304 7	0.009 11	0.924 2	0.000 9	0.000 11	0.000 1	0.000 9	0.000 1	0.128 3	0.584 2	0.475 7	0.412 8	0.076 11	0.269 3	0.621 6	0.509 9	0.010 7	0.000 1	0.491 11	0.063 1	0.000 2	0.472 4	0.880 4	0.000 3	0.000 1	0.000 1	0.179 5	0.125 2	0.000 3	0.441 10	0.000 1
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
Minkowski 34D	0.253 16	0.463 16	0.154 17	0.102 16	0.771 16	0.650 16	0.932 15	0.483 16	0.571 16	0.710 15	0.331 16	0.250 16	0.492 14	0.044 6	0.703 16	0.419 17	0.606 17	0.227 16	0.621 16	0.865 17	0.531 8	0.771 17	0.813 14	0.291 11	0.484 15	0.242 16	0.612 17	0.282 17	0.440 17	0.351 15	0.299 15	0.622 16	0.593 11	0.027 11	0.293 13	0.310 17	0.000 1	0.757 14	0.858 14	0.737 12	0.150 9	0.164 1	0.368 17	0.084 8	0.381 16	0.142 17	0.357 15	0.720 10	0.214 12	0.092 14	0.724 16	0.596 17	0.056 14	0.655 9	0.525 14	0.581 15	0.352 17	0.594 15	0.056 17	0.000 3	0.014 17	0.224 15	0.772 15	0.205 17	0.720 16	0.000 7	0.159 7	0.531 16	0.163 17	0.294 16	0.136 17	0.000 1	0.169 16	0.589 14	0.000 4	0.000 9	0.000 1	0.002 4	0.663 10	0.466 17	0.265 17	0.582 10	0.337 10	0.016 15	0.559 15	0.084 17	0.000 3	0.000 7	0.000 1	0.036 5	0.000 4	0.125 5	0.670 13	0.000 1	0.102 3	0.071 8	0.164 15	0.406 9	0.386 7	0.046 16	0.068 17	0.159 15	0.117 6	0.284 16	0.111 16	0.094 16	0.000 4	0.000 17	0.197 16	0.000 3	0.044 15	0.013 15	0.002 14	0.228 17	0.307 17	0.588 11	0.025 17	0.545 5	0.134 15	0.000 1	0.655 4	0.302 14	0.282 17	0.000 1	0.060 2	0.000 12	0.035 17	0.000 7	0.000 10	0.097 17	0.000 12	0.000 8	0.005 10	0.000 1	0.000 5	0.096 17	0.000 1	0.334 16	0.000 1	0.000 12	0.274 16	0.000 1	0.513 14	0.000 1	0.000 1	0.280 8	0.194 9	0.897 11	0.000 9	0.000 11	0.000 1	0.000 9	0.000 1	0.108 9	0.279 17	0.189 16	0.141 17	0.059 14	0.272 2	0.307 17	0.445 10	0.003 10	0.000 1	0.353 15	0.000 2	0.026 1	0.000 11	0.581 15	0.001 2	0.000 1	0.000 1	0.093 17	0.002 6	0.000 3	0.000 11	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
CSC-Pretrain	0.249 17	0.455 17	0.171 16	0.079 17	0.766 17	0.659 15	0.930 17	0.494 14	0.542 17	0.700 17	0.314 17	0.215 17	0.430 17	0.121 1	0.697 17	0.441 16	0.683 16	0.235 14	0.609 17	0.895 16	0.476 15	0.816 16	0.770 17	0.186 14	0.634 6	0.216 17	0.734 9	0.340 16	0.471 16	0.307 16	0.293 17	0.591 17	0.542 15	0.076 7	0.205 16	0.464 14	0.000 1	0.484 17	0.832 16	0.766 7	0.052 16	0.000 7	0.413 16	0.059 14	0.418 15	0.222 16	0.318 17	0.609 14	0.206 13	0.112 9	0.743 14	0.625 14	0.076 9	0.579 15	0.548 13	0.590 14	0.371 16	0.552 17	0.081 16	0.003 2	0.142 13	0.201 16	0.638 17	0.233 16	0.686 17	0.000 7	0.142 9	0.444 17	0.375 13	0.247 17	0.198 14	0.000 1	0.128 17	0.454 17	0.019 2	0.097 1	0.000 1	0.000 6	0.553 14	0.557 15	0.373 13	0.545 14	0.164 14	0.014 16	0.547 16	0.174 15	0.000 3	0.002 5	0.000 1	0.037 4	0.000 4	0.063 11	0.664 14	0.000 1	0.000 10	0.130 2	0.170 14	0.152 16	0.335 10	0.079 14	0.110 15	0.175 14	0.098 9	0.175 17	0.166 15	0.045 17	0.207 2	0.014 14	0.465 5	0.000 3	0.001 17	0.001 17	0.046 12	0.299 15	0.327 16	0.537 12	0.033 16	0.012 17	0.186 10	0.000 1	0.205 15	0.377 13	0.463 16	0.000 1	0.058 3	0.000 12	0.055 15	0.041 1	0.000 10	0.105 16	0.000 12	0.000 8	0.000 11	0.000 1	0.000 5	0.398 15	0.000 1	0.308 17	0.000 1	0.000 12	0.319 15	0.000 1	0.543 12	0.000 1	0.000 1	0.062 15	0.004 13	0.862 15	0.000 9	0.000 11	0.000 1	0.000 9	0.000 1	0.123 5	0.316 16	0.225 15	0.250 13	0.094 3	0.180 5	0.332 14	0.441 11	0.000 12	0.000 1	0.310 16	0.000 2	0.000 2	0.000 11	0.592 14	0.000 3	0.000 1	0.000 1	0.203 3	0.000 7	0.000 3	0.000 11	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
PPT-SpUNet-F.T.	0.332 12	0.556 6	0.270 7	0.123 14	0.816 6	0.682 9	0.946 6	0.549 10	0.657 8	0.756 5	0.459 7	0.376 9	0.550 11	0.001 12	0.807 4	0.616 4	0.727 12	0.267 9	0.691 5	0.942 11	0.530 9	0.872 5	0.874 8	0.330 8	0.542 14	0.374 8	0.792 5	0.400 14	0.673 4	0.572 7	0.433 2	0.793 9	0.623 7	0.008 16	0.351 10	0.594 8	0.000 1	0.783 13	0.876 7	0.833 4	0.213 6	0.000 7	0.537 8	0.091 7	0.519 4	0.304 8	0.620 8	0.942 2	0.264 5	0.124 8	0.855 7	0.695 5	0.086 8	0.646 10	0.506 16	0.658 7	0.535 6	0.715 4	0.314 2	0.000 3	0.241 4	0.608 3	0.897 2	0.359 8	0.858 11	0.000 7	0.076 17	0.611 11	0.392 12	0.509 7	0.378 6	0.000 1	0.579 4	0.565 15	0.000 4	0.000 9	0.000 1	0.000 6	0.755 7	0.806 9	0.661 4	0.572 13	0.350 9	0.181 7	0.660 12	0.300 14	0.000 3	0.000 7	0.000 1	0.023 12	0.000 4	0.042 14	0.930 4	0.000 1	0.000 10	0.077 7	0.584 9	0.392 10	0.339 9	0.185 10	0.171 12	0.308 2	0.006 13	0.563 3	0.256 8	0.150 4	0.000 4	0.002 16	0.345 12	0.000 3	0.045 14	0.197 5	0.063 11	0.323 11	0.453 4	0.600 8	0.163 11	0.037 15	0.349 4	0.000 1	0.672 3	0.679 4	0.753 5	0.000 1	0.000 11	0.000 12	0.117 6	0.000 7	0.000 10	0.291 8	0.000 12	0.000 8	0.039 7	0.000 1	0.000 5	0.899 2	0.000 1	0.374 11	0.000 1	0.000 12	0.545 5	0.000 1	0.634 5	0.000 1	0.000 1	0.074 13	0.223 8	0.914 6	0.000 9	0.021 9	0.000 1	0.000 9	0.000 1	0.112 6	0.498 10	0.649 1	0.383 10	0.095 2	0.135 12	0.449 11	0.432 12	0.008 9	0.000 1	0.518 7	0.000 2	0.000 2	0.000 11	0.796 5	0.000 3	0.000 1	0.000 1	0.138 13	0.000 7	0.000 3	0.000 11	0.000 1
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
L3DETR-ScanNet_200	0.336 8	0.533 11	0.279 6	0.155 10	0.801 9	0.689 4	0.946 6	0.539 11	0.660 7	0.759 4	0.380 14	0.333 14	0.583 4	0.000 14	0.788 10	0.529 10	0.740 8	0.261 12	0.679 9	0.940 12	0.525 10	0.860 8	0.883 7	0.226 13	0.613 9	0.397 6	0.720 11	0.512 5	0.565 12	0.620 3	0.417 4	0.775 13	0.629 6	0.158 2	0.298 12	0.579 11	0.000 1	0.835 6	0.883 6	0.927 1	0.114 11	0.079 4	0.511 10	0.073 11	0.508 5	0.312 6	0.629 6	0.861 5	0.192 14	0.098 13	0.908 3	0.636 11	0.032 17	0.563 17	0.514 15	0.664 6	0.505 10	0.697 7	0.225 9	0.000 3	0.264 2	0.411 12	0.860 8	0.321 13	0.960 3	0.058 6	0.109 13	0.776 3	0.526 5	0.557 3	0.303 9	0.000 1	0.339 12	0.712 7	0.000 4	0.014 7	0.000 1	0.000 6	0.638 12	0.856 4	0.641 7	0.579 11	0.107 17	0.119 11	0.661 11	0.416 7	0.000 3	0.000 7	0.000 1	0.007 17	0.000 4	0.067 10	0.910 5	0.000 1	0.000 10	0.000 10	0.463 11	0.448 8	0.294 14	0.324 1	0.293 3	0.211 8	0.108 8	0.448 8	0.068 17	0.141 6	0.000 4	0.330 3	0.699 1	0.000 3	0.256 11	0.192 6	0.000 15	0.355 8	0.418 7	0.209 17	0.146 12	0.679 3	0.101 17	0.000 1	0.503 13	0.687 2	0.671 8	0.000 1	0.000 11	0.174 11	0.117 6	0.000 7	0.122 7	0.515 2	0.104 6	0.259 2	0.312 3	0.000 1	0.000 5	0.765 12	0.000 1	0.369 12	0.000 1	0.183 8	0.422 11	0.000 1	0.646 4	0.000 1	0.000 1	0.565 2	0.001 14	0.125 17	0.010 7	0.002 10	0.000 1	0.487 1	0.000 1	0.075 14	0.548 4	0.420 9	0.233 14	0.082 8	0.138 11	0.430 12	0.427 13	0.000 12	0.000 1	0.549 6	0.000 2	0.000 2	0.074 8	0.409 16	0.000 3	0.000 1	0.000 1	0.152 7	0.051 3	0.000 3	0.598 6	0.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, Jian Zhang: Language-Assisted 3D Scene Understanding. arXiv23.12
OctFormer ScanNet200	0.326 13	0.539 10	0.265 10	0.131 12	0.806 8	0.670 12	0.943 9	0.535 12	0.662 4	0.705 16	0.423 9	0.407 6	0.505 13	0.003 11	0.765 13	0.582 7	0.686 15	0.227 16	0.680 8	0.943 10	0.601 2	0.854 10	0.892 6	0.335 6	0.417 17	0.357 10	0.724 10	0.453 11	0.632 7	0.596 5	0.432 3	0.783 11	0.512 16	0.021 12	0.244 15	0.637 2	0.000 1	0.787 12	0.873 9	0.743 11	0.000 17	0.000 7	0.534 9	0.110 4	0.499 6	0.289 10	0.626 7	0.620 12	0.168 15	0.204 4	0.849 10	0.679 8	0.117 5	0.633 11	0.684 3	0.650 8	0.552 5	0.684 9	0.312 3	0.000 3	0.175 11	0.429 11	0.865 5	0.413 4	0.837 12	0.000 7	0.145 8	0.626 9	0.451 8	0.487 11	0.513 3	0.000 1	0.529 7	0.613 12	0.000 4	0.033 6	0.000 1	0.000 6	0.828 5	0.871 3	0.622 9	0.587 9	0.411 7	0.137 10	0.645 14	0.343 12	0.000 3	0.000 7	0.000 1	0.022 13	0.000 4	0.026 17	0.829 11	0.000 1	0.022 8	0.089 6	0.842 4	0.253 14	0.318 11	0.296 2	0.178 11	0.291 3	0.224 3	0.584 2	0.200 14	0.132 8	0.000 4	0.128 11	0.227 13	0.000 3	0.230 13	0.047 11	0.149 8	0.331 10	0.412 9	0.618 7	0.164 10	0.102 11	0.522 3	0.000 1	0.655 4	0.378 12	0.469 15	0.000 1	0.000 11	0.000 12	0.105 9	0.000 7	0.000 10	0.483 3	0.000 12	0.000 8	0.028 8	0.000 1	0.000 5	0.906 1	0.000 1	0.339 15	0.000 1	0.000 12	0.457 9	0.000 1	0.612 8	0.000 1	0.000 1	0.408 4	0.000 15	0.900 10	0.000 9	0.000 11	0.000 1	0.029 8	0.000 1	0.074 15	0.455 15	0.479 6	0.427 7	0.079 9	0.140 8	0.496 8	0.414 14	0.022 6	0.000 1	0.471 13	0.000 2	0.000 2	0.000 11	0.722 7	0.000 3	0.000 1	0.000 1	0.138 13	0.000 7	0.000 3	0.000 11	0.000 1
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
LGround	0.272 15	0.485 15	0.184 15	0.106 15	0.778 15	0.676 11	0.932 15	0.479 17	0.572 15	0.718 14	0.399 12	0.265 15	0.453 16	0.085 3	0.745 15	0.446 15	0.726 13	0.232 15	0.622 15	0.901 15	0.512 11	0.826 15	0.786 16	0.178 16	0.549 12	0.277 15	0.659 15	0.381 15	0.518 14	0.295 17	0.323 14	0.777 12	0.599 10	0.028 10	0.321 11	0.363 16	0.000 1	0.708 15	0.858 14	0.746 10	0.063 15	0.022 5	0.457 15	0.077 10	0.476 11	0.243 15	0.402 14	0.397 17	0.233 10	0.077 15	0.720 17	0.610 16	0.103 6	0.629 12	0.437 17	0.626 11	0.446 14	0.702 6	0.190 13	0.005 1	0.058 16	0.322 14	0.702 16	0.244 15	0.768 14	0.000 7	0.134 12	0.552 15	0.279 16	0.395 14	0.147 16	0.000 1	0.207 15	0.612 13	0.000 4	0.000 9	0.000 1	0.000 6	0.658 11	0.566 14	0.323 15	0.525 15	0.229 12	0.179 8	0.467 17	0.154 16	0.000 3	0.002 5	0.000 1	0.051 1	0.000 4	0.127 4	0.703 12	0.000 1	0.000 10	0.216 1	0.112 16	0.358 11	0.547 2	0.187 9	0.092 16	0.156 17	0.055 10	0.296 15	0.252 9	0.143 5	0.000 4	0.014 14	0.398 7	0.000 3	0.028 16	0.173 7	0.000 15	0.265 16	0.348 14	0.415 16	0.179 8	0.019 16	0.218 8	0.000 1	0.597 8	0.274 16	0.565 13	0.000 1	0.012 8	0.000 12	0.039 16	0.022 3	0.000 10	0.117 15	0.000 12	0.000 8	0.000 11	0.000 1	0.000 5	0.324 16	0.000 1	0.384 9	0.000 1	0.000 12	0.251 17	0.000 1	0.566 11	0.000 1	0.000 1	0.066 14	0.404 4	0.886 13	0.199 2	0.000 11	0.000 1	0.059 7	0.000 1	0.136 1	0.540 5	0.127 17	0.295 11	0.085 7	0.143 6	0.514 7	0.413 15	0.000 12	0.000 1	0.498 8	0.000 2	0.000 2	0.000 11	0.623 12	0.000 3	0.000 1	0.000 1	0.132 15	0.000 7	0.000 3	0.000 11	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild. arXiv
CeCo	0.340 7	0.551 9	0.247 13	0.181 6	0.784 13	0.661 14	0.939 13	0.564 6	0.624 13	0.721 12	0.484 5	0.429 5	0.575 5	0.027 8	0.774 11	0.503 14	0.753 5	0.242 13	0.656 11	0.945 9	0.534 7	0.865 7	0.860 11	0.177 17	0.616 8	0.400 5	0.818 2	0.579 1	0.615 11	0.367 14	0.408 6	0.726 15	0.633 5	0.162 1	0.360 9	0.619 3	0.000 1	0.828 9	0.873 9	0.924 2	0.109 13	0.083 3	0.564 6	0.057 15	0.475 12	0.266 11	0.781 2	0.767 7	0.257 7	0.100 11	0.825 11	0.663 10	0.048 15	0.620 13	0.551 12	0.595 13	0.532 7	0.692 8	0.246 6	0.000 3	0.213 6	0.615 2	0.861 7	0.376 7	0.900 8	0.000 7	0.102 15	0.660 8	0.321 15	0.547 5	0.226 13	0.000 1	0.311 13	0.742 5	0.011 3	0.006 8	0.000 1	0.000 6	0.546 15	0.824 8	0.345 14	0.665 2	0.450 6	0.435 1	0.683 8	0.411 8	0.338 1	0.000 7	0.000 1	0.030 9	0.000 4	0.068 9	0.892 8	0.000 1	0.063 5	0.000 10	0.257 13	0.304 13	0.387 6	0.079 14	0.228 6	0.190 11	0.000 14	0.586 1	0.347 4	0.133 7	0.000 4	0.037 13	0.377 10	0.000 3	0.384 8	0.006 16	0.003 13	0.421 5	0.410 10	0.643 5	0.171 9	0.121 9	0.142 12	0.000 1	0.510 11	0.447 11	0.474 14	0.000 1	0.000 11	0.286 5	0.083 11	0.000 7	0.000 10	0.603 1	0.096 7	0.063 5	0.000 11	0.000 1	0.000 5	0.898 3	0.000 1	0.429 7	0.000 1	0.400 2	0.550 4	0.000 1	0.633 6	0.000 1	0.000 1	0.377 5	0.000 15	0.916 4	0.000 9	0.000 11	0.000 1	0.000 9	0.000 1	0.102 12	0.499 9	0.296 14	0.463 6	0.089 5	0.304 1	0.740 3	0.401 16	0.010 7	0.000 1	0.560 4	0.000 2	0.000 2	0.709 2	0.652 10	0.000 3	0.000 1	0.000 1	0.143 8	0.000 7	0.000 3	0.609 5	0.000 1
Zhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia: Understanding Imbalanced Semantic Segmentation Through Neural Collapse. CVPR 2023
AWCS	0.305 14	0.508 14	0.225 14	0.142 11	0.782 14	0.634 17	0.937 14	0.489 15	0.578 14	0.721 12	0.364 15	0.355 11	0.515 12	0.023 9	0.764 14	0.523 11	0.707 14	0.264 11	0.633 14	0.922 14	0.507 13	0.886 1	0.804 15	0.179 15	0.436 16	0.300 12	0.656 16	0.529 3	0.501 15	0.394 13	0.296 16	0.820 5	0.603 9	0.131 3	0.179 17	0.619 3	0.000 1	0.707 16	0.865 13	0.773 6	0.171 7	0.010 6	0.484 14	0.063 13	0.463 13	0.254 13	0.332 16	0.649 11	0.220 11	0.100 11	0.729 15	0.613 15	0.071 13	0.582 14	0.628 7	0.702 4	0.424 15	0.749 2	0.137 15	0.000 3	0.142 13	0.360 13	0.863 6	0.305 14	0.877 10	0.000 7	0.173 5	0.606 12	0.337 14	0.478 12	0.154 15	0.000 1	0.253 14	0.664 8	0.000 4	0.000 9	0.000 1	0.000 6	0.626 13	0.782 10	0.302 16	0.602 7	0.185 13	0.282 6	0.651 13	0.317 13	0.000 3	0.000 7	0.000 1	0.022 13	0.000 4	0.154 2	0.876 9	0.000 1	0.014 9	0.063 9	0.029 17	0.553 7	0.467 3	0.084 13	0.124 14	0.157 16	0.049 12	0.373 13	0.252 9	0.097 15	0.000 4	0.219 7	0.542 3	0.000 3	0.392 7	0.172 8	0.000 15	0.339 9	0.417 8	0.533 13	0.093 15	0.115 10	0.195 9	0.000 1	0.516 10	0.288 15	0.741 6	0.000 1	0.001 10	0.233 9	0.056 14	0.000 7	0.159 6	0.334 7	0.077 9	0.000 8	0.000 11	0.000 1	0.000 5	0.749 13	0.000 1	0.411 8	0.000 1	0.008 11	0.452 10	0.000 1	0.595 10	0.000 1	0.000 1	0.220 10	0.006 12	0.894 12	0.006 8	0.000 11	0.000 1	0.000 9	0.000 1	0.112 6	0.504 8	0.404 10	0.551 3	0.093 4	0.129 14	0.484 10	0.381 17	0.000 12	0.000 1	0.396 14	0.000 2	0.000 2	0.620 3	0.402 17	0.000 3	0.000 1	0.000 1	0.142 9	0.000 7	0.000 3	0.512 9	0.000 1
: Long-Tailed 3D Semantic Segmentation with Adaptive Weight Constraint and Sampling. ICRA 2024

This table lists the benchmark results for the ScanNet200 3D semantic instance scenario.

Method	avg ap	head ap	common ap	tail ap	chair	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

TD3D Scannet200	0.211 3	0.332 3	0.177 3	0.103 3	0.662 1	0.413 2	0.463 3	0.705 1	0.192 4	0.145 2	0.266 2	0.215 1	0.452 5	0.209 3	0.222 6	0.219 6	0.315 2	0.893 1	0.380 2	0.617 2	0.439 2	0.047 5	0.646 1	0.080 3	0.610 3	0.253 1	0.237 3	0.293 3	0.135 2	0.379 6	0.494 2	0.048 1	0.252 2	0.451 3	0.184 2	0.483 2	0.395 2	0.852 1	0.083 3	0.551 2	0.278 3	0.036 3	0.337 3	0.266 3	0.544 2	0.963 1	0.079 6	0.039 1	0.740 3	0.604 3	0.000 3	0.586 1	0.283 3	0.282 3	0.059 3	0.633 3	0.028 3	0.004 2	0.559 2	0.309 2	0.420 3	0.028 6	1.000 1	0.000 2	0.456 1	0.411 1	0.372 1	0.060 5	0.046 4	0.000 2	0.040 5	0.694 1	0.083 3	0.000 2	0.000 1	0.000 3	0.000 4	0.083 5	0.252 3	0.260 5	0.200 2	0.160 1	0.669 2	0.111 3	0.000 2	0.000 2	0.006 2	0.169 2	0.000 1	0.007 2	0.296 3	0.032 1	0.074 1	0.139 4	0.000 3	0.321 2	0.031 2	0.108 3	0.088 3	0.157 2	0.000 2	0.231 5	0.026 6	0.000 3	0.000 1	0.356 2	0.052 3	0.000 1	0.240 2	0.147 2	0.000 2	0.015 3	0.046 4	0.144 4	0.073 4	0.414 2	0.222 5	0.000 1	0.806 1	0.343 3	0.486 3	0.000 1	0.008 1	0.038 3	0.083 2	0.002 1	0.028 3	0.074 2	0.032 3	0.150 3	0.039 3	0.008 1	0.000 1	0.250 5	0.000 1	0.125 4	0.000 1	0.052 2	0.260 4	0.000 1	0.143 6	0.000 1	0.000 1	0.543 2	0.207 3	0.404 1	0.000 1	0.003 3	0.000 1	0.000 3	0.000 1	0.037 2	0.093 5	0.272 3	0.342 2	0.039 5	0.281 2	0.249 3	0.224 1	0.000 2	0.000 1	0.074 2	0.000 1	0.000 1	0.000 2	0.278 3	0.000 2	0.000 2	0.889 1	0.323 1	0.000 2	0.014 1	0.000 3	0.000 1
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
ODIN - Ins200	0.265 2	0.349 2	0.268 1	0.163 2	0.485 6	0.366 4	0.549 2	0.492 6	0.421 1	0.229 1	0.265 3	0.003 3	0.609 2	0.297 2	0.320 2	0.327 2	0.251 3	0.848 4	0.314 5	0.526 3	0.324 5	0.138 2	0.529 2	0.178 1	0.440 5	0.186 6	0.306 2	0.546 1	0.160 1	0.494 4	0.476 3	0.016 2	0.231 3	0.594 1	0.000 3	0.615 1	0.357 3	0.630 4	0.141 1	0.167 3	0.665 1	0.054 2	0.360 2	0.451 2	0.610 1	0.769 4	0.640 1	0.032 2	0.746 2	0.698 2	0.040 1	0.389 4	0.550 2	0.371 1	0.257 2	0.617 4	0.310 1	0.000 3	0.481 3	0.022 5	0.463 1	0.160 2	1.000 1	0.125 1	0.193 3	0.267 3	0.253 3	0.156 3	0.000 5	0.000 2	0.332 1	0.606 2	0.444 1	0.000 2	0.000 1	0.281 1	1.000 1	0.417 3	0.344 2	0.238 6	0.218 1	0.000 3	0.655 3	0.506 1	0.000 2	0.052 1	0.000 3	0.091 3	0.000 1	0.035 1	0.370 1	0.000 3	0.000 3	0.250 2	0.903 1	0.037 6	0.031 1	0.221 1	0.197 1	0.285 1	0.037 1	0.191 6	0.200 3	0.083 1	0.000 1	0.200 3	0.115 2	0.000 1	0.250 1	0.552 1	0.278 1	0.077 2	0.107 2	0.389 2	0.674 1	0.565 1	0.278 1	0.000 1	0.361 6	0.333 4	0.361 4	0.000 1	0.000 3	0.438 1	0.451 1	0.000 2	1.000 1	0.074 2	0.204 2	0.250 2	0.250 1	0.000 3	0.000 1	0.493 2	0.000 1	0.083 5	0.000 1	0.000 3	0.317 2	0.000 1	0.481 2	0.000 1	0.000 1	0.188 3	0.333 2	0.345 2	0.000 1	0.333 1	0.000 1	0.333 1	0.000 1	0.035 3	0.266 2	0.478 1	0.506 1	0.054 3	0.205 3	0.119 5	0.067 2	0.000 2	0.000 1	0.210 1	0.000 1	0.000 1	0.000 2	0.389 2	0.097 1	0.000 2	0.000 2	0.111 3	0.000 2	0.000 2	0.889 2	0.000 1

CSC-Pretrain Inst.	0.123 6	0.223 6	0.082 6	0.046 5	0.564 4	0.152 6	0.394 6	0.578 5	0.235 3	0.116 6	0.034 6	0.000 4	0.348 6	0.119 5	0.297 3	0.285 4	0.202 6	0.838 5	0.323 4	0.407 5	0.184 6	0.037 6	0.516 3	0.013 6	0.424 6	0.214 3	0.093 6	0.105 6	0.078 6	0.542 3	0.250 6	0.000 4	0.064 5	0.444 4	0.000 3	0.224 6	0.231 4	0.537 5	0.001 6	0.000 4	0.126 5	0.004 4	0.308 4	0.193 4	0.244 5	0.343 6	0.228 3	0.000 6	0.441 5	0.588 4	0.000 3	0.338 5	0.275 5	0.189 5	0.030 5	0.600 5	0.000 5	0.000 3	0.378 5	0.000 6	0.108 6	0.098 5	1.000 1	0.000 2	0.096 6	0.172 5	0.144 4	0.011 6	0.125 2	0.000 2	0.000 6	0.376 5	0.000 4	0.000 2	0.000 1	0.000 3	0.000 4	0.042 6	0.141 5	0.377 3	0.051 3	0.000 3	0.483 4	0.017 5	0.000 2	0.000 2	0.000 3	0.022 6	0.000 1	0.000 4	0.065 4	0.000 3	0.000 3	0.000 5	0.000 3	0.094 4	0.000 6	0.042 4	0.000 6	0.064 6	0.000 2	0.259 3	0.089 4	0.000 3	0.000 1	0.000 5	0.022 5	0.000 1	0.000 4	0.000 4	0.000 2	0.000 5	0.018 6	0.111 6	0.000 6	0.000 5	0.278 1	0.000 1	0.444 5	0.333 4	0.333 5	0.000 1	0.000 3	0.000 4	0.000 4	0.000 2	0.000 4	0.000 6	0.000 4	0.000 4	0.000 4	0.000 3	0.000 1	0.267 4	0.000 1	0.184 3	0.000 1	0.000 3	0.211 5	0.000 1	0.378 3	0.000 1	0.000 1	0.063 6	0.000 6	0.275 4	0.000 1	0.000 4	0.000 1	0.000 3	0.000 1	0.007 6	0.105 4	0.000 4	0.032 6	0.045 4	0.198 4	0.171 4	0.028 3	0.000 2	0.000 1	0.006 4	0.000 1	0.000 1	0.000 2	0.278 3	0.000 2	0.000 2	0.000 2	0.044 5	0.000 2	0.000 2	0.000 3	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
LGround Inst.	0.154 4	0.275 4	0.108 4	0.060 4	0.573 3	0.381 3	0.434 4	0.654 4	0.190 5	0.141 3	0.097 4	0.000 4	0.503 4	0.180 4	0.252 4	0.242 5	0.242 4	0.881 3	0.448 1	0.494 4	0.429 3	0.078 3	0.364 6	0.024 4	0.654 2	0.213 4	0.222 4	0.239 4	0.099 4	0.616 2	0.363 4	0.000 4	0.092 4	0.444 4	0.000 3	0.383 5	0.209 6	0.815 2	0.030 4	0.000 4	0.166 4	0.002 5	0.295 6	0.099 5	0.364 3	0.778 2	0.177 4	0.001 5	0.427 6	0.585 5	0.000 3	0.470 3	0.268 6	0.205 4	0.045 4	0.642 2	0.007 4	0.000 3	0.333 6	0.148 3	0.407 4	0.130 3	1.000 1	0.000 2	0.156 5	0.189 4	0.097 5	0.169 2	0.000 5	0.000 2	0.056 3	0.400 4	0.000 4	0.000 2	0.000 1	0.000 3	0.556 2	0.278 4	0.203 4	0.323 4	0.019 5	0.000 3	0.402 5	0.026 4	0.000 2	0.000 2	0.000 3	0.044 4	0.000 1	0.000 4	0.037 5	0.000 3	0.000 3	0.181 3	0.000 3	0.127 3	0.006 5	0.028 5	0.023 4	0.115 3	0.000 2	0.327 2	0.267 2	0.000 3	0.000 1	0.000 5	0.028 4	0.000 1	0.000 4	0.000 4	0.000 2	0.003 4	0.048 3	0.135 5	0.222 3	0.089 3	0.278 1	0.000 1	0.514 3	0.333 4	0.611 2	0.000 1	0.000 3	0.000 4	0.000 4	0.000 2	0.000 4	0.037 4	0.000 4	0.000 4	0.000 4	0.000 3	0.000 1	0.322 3	0.000 1	0.209 2	0.000 1	0.000 3	0.278 3	0.000 1	0.302 4	0.000 1	0.000 1	0.143 4	0.148 4	0.000 6	0.000 1	0.000 4	0.000 1	0.000 3	0.000 1	0.015 4	0.064 6	0.000 4	0.272 3	0.031 6	0.000 5	0.257 2	0.028 3	0.000 2	0.000 1	0.041 3	0.000 1	0.000 1	0.000 2	0.222 6	0.000 2	0.000 2	0.000 2	0.000 6	0.000 2	0.000 2	0.000 3	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild.
Mask3D Scannet200	0.278 1	0.383 1	0.263 2	0.168 1	0.661 2	0.465 1	0.572 1	0.665 3	0.391 2	0.121 5	0.304 1	0.015 2	0.647 1	0.349 1	0.474 1	0.489 1	0.321 1	0.816 6	0.351 3	0.722 1	0.402 4	0.195 1	0.515 4	0.082 2	0.795 1	0.215 2	0.396 1	0.377 2	0.082 5	0.724 1	0.586 1	0.015 3	0.277 1	0.377 6	0.201 1	0.475 3	0.572 1	0.778 3	0.089 2	0.759 1	0.556 2	0.068 1	0.506 1	0.467 1	0.323 4	0.778 2	0.427 2	0.027 3	0.789 1	0.744 1	0.003 2	0.570 2	0.561 1	0.337 2	0.265 1	0.711 1	0.258 2	0.031 1	0.569 1	0.311 1	0.441 2	0.179 1	1.000 1	0.000 2	0.233 2	0.411 2	0.283 2	0.380 1	0.667 1	0.016 1	0.048 4	0.418 3	0.139 2	0.173 1	0.000 1	0.086 2	0.014 3	0.500 1	0.384 1	0.497 1	0.044 4	0.032 2	0.752 1	0.287 2	0.003 1	0.000 2	0.007 1	0.208 1	0.000 1	0.001 3	0.349 2	0.008 2	0.014 2	0.509 1	0.500 2	0.323 1	0.023 3	0.176 2	0.107 2	0.105 4	0.000 2	0.605 1	0.378 1	0.016 2	0.000 1	0.400 1	0.192 1	0.000 1	0.048 3	0.037 3	0.000 2	0.275 1	0.119 1	0.810 1	0.258 2	0.006 4	0.083 6	0.000 1	0.568 2	0.377 2	0.708 1	0.000 1	0.005 2	0.147 2	0.014 3	0.000 2	0.556 2	0.085 1	0.325 1	0.500 1	0.083 2	0.004 2	0.000 1	0.590 1	0.000 1	0.365 1	0.000 1	0.116 1	0.491 1	0.000 1	0.626 1	0.000 1	0.000 1	0.579 1	0.391 1	0.050 5	0.000 1	0.028 2	0.000 1	0.222 2	0.000 1	0.063 1	0.302 1	0.356 2	0.149 5	0.573 1	0.415 1	0.013 6	0.002 5	0.004 1	0.000 1	0.005 5	0.000 1	0.000 1	0.444 1	0.514 1	0.000 2	0.028 1	0.000 2	0.156 2	0.267 1	0.000 2	1.000 1	0.000 1
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
Minkowski 34D Inst.	0.130 5	0.246 5	0.083 5	0.043 6	0.547 5	0.236 5	0.415 5	0.672 2	0.141 6	0.133 4	0.067 5	0.000 4	0.521 3	0.114 6	0.238 5	0.289 3	0.232 5	0.883 2	0.182 6	0.373 6	0.486 1	0.076 4	0.488 5	0.022 5	0.529 4	0.199 5	0.110 5	0.217 5	0.100 3	0.460 5	0.319 5	0.000 4	0.025 6	0.472 2	0.000 3	0.394 4	0.210 5	0.537 5	0.004 5	0.000 4	0.083 6	0.000 6	0.299 5	0.061 6	0.201 6	0.761 5	0.084 5	0.008 4	0.720 4	0.557 6	0.000 3	0.317 6	0.280 4	0.094 6	0.020 6	0.564 6	0.000 5	0.000 3	0.400 4	0.048 4	0.259 5	0.101 4	1.000 1	0.000 2	0.190 4	0.142 6	0.094 6	0.137 4	0.089 3	0.000 2	0.101 2	0.355 6	0.000 4	0.000 2	0.000 1	0.000 3	0.000 4	0.444 2	0.082 6	0.384 2	0.000 6	0.000 3	0.334 6	0.004 6	0.000 2	0.000 2	0.000 3	0.041 5	0.000 1	0.000 4	0.026 6	0.000 3	0.000 3	0.000 5	0.000 3	0.082 5	0.022 4	0.000 6	0.021 5	0.088 5	0.000 2	0.241 4	0.033 5	0.000 3	0.000 1	0.067 4	0.000 6	0.000 1	0.000 4	0.000 4	0.000 2	0.000 5	0.026 5	0.262 3	0.016 5	0.000 5	0.278 1	0.000 1	0.500 4	0.394 1	0.028 6	0.000 1	0.000 3	0.000 4	0.000 4	0.000 2	0.000 4	0.019 5	0.000 4	0.000 4	0.000 4	0.000 3	0.000 1	0.156 6	0.000 1	0.032 6	0.000 1	0.000 3	0.194 6	0.000 1	0.248 5	0.000 1	0.000 1	0.099 5	0.019 5	0.308 3	0.000 1	0.000 4	0.000 1	0.000 3	0.000 1	0.007 5	0.122 3	0.000 4	0.175 4	0.063 2	0.000 5	0.271 1	0.000 6	0.000 2	0.000 1	0.000 6	0.000 1	0.000 1	0.000 2	0.278 3	0.000 2	0.000 2	0.000 2	0.111 3	0.000 2	0.000 2	0.000 3	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019

ScanNet Benchmark

This table lists the benchmark results for the 3D semantic label scenario.

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

PTv3-PPT-ALC	0.798 1	0.911 11	0.812 23	0.854 8	0.770 12	0.856 15	0.555 17	0.943 1	0.660 26	0.735 2	0.979 1	0.606 7	0.492 1	0.792 4	0.934 4	0.841 2	0.819 6	0.716 9	0.947 10	0.906 1	0.822 1
Guangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum: ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding. CVPR 2025
DITR ScanNet	0.797 2	0.727 77	0.869 1	0.882 1	0.785 6	0.868 7	0.578 5	0.943 1	0.744 1	0.727 3	0.979 1	0.627 2	0.364 9	0.824 1	0.949 2	0.779 15	0.844 1	0.757 1	0.982 1	0.905 2	0.802 3
Karim Abou Zeid, Kadir Yilmaz, Daan de Geus, Alexander Hermans, David Adrian, Timm Linder, Bastian Leibe: DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation.
PTv3 ScanNet	0.794 3	0.941 3	0.813 22	0.851 11	0.782 7	0.890 2	0.597 1	0.916 6	0.696 11	0.713 5	0.979 1	0.635 1	0.384 3	0.793 3	0.907 10	0.821 5	0.790 37	0.696 14	0.967 4	0.903 3	0.805 2
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
PonderV2	0.785 4	0.978 1	0.800 31	0.833 30	0.788 4	0.853 20	0.545 21	0.910 9	0.713 3	0.705 6	0.979 1	0.596 9	0.390 2	0.769 15	0.832 45	0.821 5	0.792 36	0.730 2	0.975 2	0.897 6	0.785 7
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
Mix3D	0.781 5	0.964 2	0.855 2	0.843 20	0.781 8	0.858 13	0.575 8	0.831 40	0.685 17	0.714 4	0.979 1	0.594 10	0.310 31	0.801 2	0.892 19	0.841 2	0.819 6	0.723 6	0.940 15	0.887 8	0.725 29
Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann: Mix3D: Out-of-Context Data Augmentation for 3D Scenes. 3DV 2021 (Oral)
Swin3D	0.779 6	0.861 24	0.818 17	0.836 27	0.790 3	0.875 4	0.576 7	0.905 10	0.704 7	0.739 1	0.969 12	0.611 3	0.349 12	0.756 25	0.958 1	0.702 52	0.805 20	0.708 10	0.916 39	0.898 5	0.801 4

TTT-KD	0.773 7	0.646 98	0.818 17	0.809 42	0.774 10	0.878 3	0.581 3	0.943 1	0.687 15	0.704 7	0.978 6	0.607 6	0.336 20	0.775 11	0.912 8	0.838 4	0.823 4	0.694 15	0.967 4	0.899 4	0.794 6
Lisa Weijler, Muhammad Jehanzeb Mirza, Leon Sick, Can Ekkazan, Pedro Hermosilla: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models.
ResLFE_HDS	0.772 8	0.939 4	0.824 7	0.854 8	0.771 11	0.840 35	0.564 13	0.900 12	0.686 16	0.677 14	0.961 18	0.537 36	0.348 13	0.769 15	0.903 12	0.785 13	0.815 9	0.676 26	0.939 16	0.880 13	0.772 11

PPT-SpUNet-Joint	0.766 9	0.932 5	0.794 37	0.829 32	0.751 26	0.854 18	0.540 25	0.903 11	0.630 39	0.672 18	0.963 16	0.565 26	0.357 10	0.788 5	0.900 14	0.737 31	0.802 21	0.685 20	0.950 8	0.887 8	0.780 8
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer	0.766 9	0.925 7	0.808 27	0.849 13	0.786 5	0.846 30	0.566 12	0.876 19	0.690 13	0.674 17	0.960 19	0.576 22	0.226 74	0.753 27	0.904 11	0.777 16	0.815 9	0.722 7	0.923 31	0.877 17	0.776 10
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
CU-Hybrid Net	0.764 11	0.924 8	0.819 14	0.840 23	0.757 21	0.853 20	0.580 4	0.848 32	0.709 5	0.643 28	0.958 24	0.587 16	0.295 39	0.753 27	0.884 23	0.758 23	0.815 9	0.725 5	0.927 27	0.867 28	0.743 20

OccuSeg+Semantic	0.764 11	0.758 62	0.796 35	0.839 24	0.746 30	0.907 1	0.562 14	0.850 31	0.680 19	0.672 18	0.978 6	0.610 4	0.335 22	0.777 9	0.819 49	0.847 1	0.830 3	0.691 17	0.972 3	0.885 10	0.727 27

O-CNN	0.762 13	0.924 8	0.823 8	0.844 19	0.770 12	0.852 22	0.577 6	0.847 34	0.711 4	0.640 32	0.958 24	0.592 11	0.217 80	0.762 20	0.888 20	0.758 23	0.813 13	0.726 4	0.932 25	0.868 27	0.744 19
Peng-Shuai Wang, Yang Liu, Yu-Xiao Guo, Chun-Yu Sun, Xin Tong: O-CNN: Octree-based Convolutional Neural Networks for 3D Shape Analysis. SIGGRAPH 2017
DiffSegNet	0.758 14	0.725 79	0.789 42	0.843 20	0.762 17	0.856 15	0.562 14	0.920 4	0.657 29	0.658 22	0.958 24	0.589 14	0.337 19	0.782 6	0.879 24	0.787 11	0.779 42	0.678 22	0.926 29	0.880 13	0.799 5

DTC	0.757 15	0.843 30	0.820 12	0.847 16	0.791 2	0.862 11	0.511 39	0.870 23	0.707 6	0.652 24	0.954 41	0.604 8	0.279 50	0.760 21	0.942 3	0.734 32	0.766 51	0.701 13	0.884 62	0.874 23	0.736 21

OA-CNN-L_ScanNet20	0.756 16	0.783 48	0.826 6	0.858 6	0.776 9	0.837 40	0.548 20	0.896 15	0.649 31	0.675 16	0.962 17	0.586 17	0.335 22	0.771 14	0.802 54	0.770 19	0.787 39	0.691 17	0.936 20	0.880 13	0.761 14

PNE	0.755 17	0.786 46	0.835 5	0.834 29	0.758 19	0.849 25	0.570 10	0.836 39	0.648 32	0.668 20	0.978 6	0.581 20	0.367 7	0.683 40	0.856 33	0.804 8	0.801 25	0.678 22	0.961 6	0.889 7	0.716 36
P. Hermosilla: Point Neighborhood Embeddings.
LSK3DNet	0.755 17	0.899 17	0.823 8	0.843 20	0.764 16	0.838 38	0.584 2	0.845 35	0.717 2	0.638 34	0.956 31	0.580 21	0.229 73	0.640 50	0.900 14	0.750 26	0.813 13	0.729 3	0.920 35	0.872 25	0.757 15
Tuo Feng, Wenguan Wang, Fan Ma, Yi Yang: LSK3DNet: Towards Effective and Efficient 3D Perception with Large Sparse Kernels. CVPR 2024
ConDaFormer	0.755 17	0.927 6	0.822 10	0.836 27	0.801 1	0.849 25	0.516 36	0.864 28	0.651 30	0.680 13	0.958 24	0.584 19	0.282 47	0.759 23	0.855 35	0.728 34	0.802 21	0.678 22	0.880 67	0.873 24	0.756 17
Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Guisong Xia, Dacheng Tao: ConDaFormer : Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding. Neurips, 2023
DMF-Net	0.752 20	0.906 15	0.793 39	0.802 48	0.689 47	0.825 53	0.556 16	0.867 24	0.681 18	0.602 51	0.960 19	0.555 32	0.365 8	0.779 8	0.859 30	0.747 27	0.795 33	0.717 8	0.917 38	0.856 36	0.764 13
C.Yang, Y.Yan, W.Zhao, J.Ye, X.Yang, A.Hussain, B.Dong, K.Huang: Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic Segmentation. ICONIP 2023
PointTransformerV2	0.752 20	0.742 69	0.809 26	0.872 2	0.758 19	0.860 12	0.552 18	0.891 17	0.610 46	0.687 8	0.960 19	0.559 30	0.304 34	0.766 18	0.926 6	0.767 20	0.797 29	0.644 39	0.942 13	0.876 20	0.722 32
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao: Point Transformer V2: Grouped Vector Attention and Partition-based Pooling. NeurIPS 2022
PointConvFormer	0.749 22	0.793 44	0.790 40	0.807 44	0.750 28	0.856 15	0.524 32	0.881 18	0.588 59	0.642 31	0.977 10	0.591 12	0.274 53	0.781 7	0.929 5	0.804 8	0.796 30	0.642 40	0.947 10	0.885 10	0.715 37
Wenxuan Wu, Qi Shan, Li Fuxin: PointConvFormer: Revenge of the Point-based Convolution.
BPNet	0.749 22	0.909 13	0.818 17	0.811 40	0.752 24	0.839 37	0.485 54	0.842 36	0.673 21	0.644 27	0.957 29	0.528 43	0.305 33	0.773 12	0.859 30	0.788 10	0.818 8	0.693 16	0.916 39	0.856 36	0.723 31
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MSP	0.748 24	0.623 101	0.804 29	0.859 5	0.745 31	0.824 55	0.501 43	0.912 8	0.690 13	0.685 10	0.956 31	0.567 25	0.320 28	0.768 17	0.918 7	0.720 39	0.802 21	0.676 26	0.921 33	0.881 12	0.779 9

StratifiedFormer	0.747 25	0.901 16	0.803 30	0.845 18	0.757 21	0.846 30	0.512 38	0.825 43	0.696 11	0.645 26	0.956 31	0.576 22	0.262 64	0.744 33	0.861 29	0.742 29	0.770 49	0.705 11	0.899 51	0.860 33	0.734 22
Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia: Stratified Transformer for 3D Point Cloud Segmentation. CVPR 2022
Virtual MVFusion	0.746 26	0.771 56	0.819 14	0.848 15	0.702 43	0.865 10	0.397 92	0.899 13	0.699 9	0.664 21	0.948 63	0.588 15	0.330 24	0.746 32	0.851 39	0.764 21	0.796 30	0.704 12	0.935 21	0.866 29	0.728 25
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
VMNet	0.746 26	0.870 22	0.838 3	0.858 6	0.729 36	0.850 24	0.501 43	0.874 20	0.587 60	0.658 22	0.956 31	0.564 27	0.299 36	0.765 19	0.900 14	0.716 42	0.812 15	0.631 45	0.939 16	0.858 34	0.709 38
Zeyu HU, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai: VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation. ICCV 2021 (Oral)
DiffSeg3D2	0.745 28	0.725 79	0.814 21	0.837 25	0.751 26	0.831 47	0.514 37	0.896 15	0.674 20	0.684 11	0.960 19	0.564 27	0.303 35	0.773 12	0.820 48	0.713 45	0.798 28	0.690 19	0.923 31	0.875 21	0.757 15

ODIN	0.744 29	0.658 94	0.752 65	0.870 3	0.714 40	0.843 33	0.569 11	0.919 5	0.703 8	0.622 41	0.949 60	0.591 12	0.343 15	0.736 34	0.784 56	0.816 7	0.838 2	0.672 31	0.918 37	0.854 40	0.725 29
Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki: ODIN: A Single Model for 2D and 3D Segmentation. CVPR 2024
Retro-FPN	0.744 29	0.842 31	0.800 31	0.767 62	0.740 32	0.836 42	0.541 23	0.914 7	0.672 22	0.626 38	0.958 24	0.552 33	0.272 55	0.777 9	0.886 22	0.696 53	0.801 25	0.674 29	0.941 14	0.858 34	0.717 34
Peng Xiang, Xin Wen, Yu-Shen Liu, Hui Zhang, Yi Fang, Zhizhong Han: Retrospective Feature Pyramid Network for Point Cloud Semantic Segmentation. ICCV 2023
EQ-Net	0.743 31	0.620 102	0.799 34	0.849 13	0.730 35	0.822 57	0.493 51	0.897 14	0.664 23	0.681 12	0.955 35	0.562 29	0.378 4	0.760 21	0.903 12	0.738 30	0.801 25	0.673 30	0.907 43	0.877 17	0.745 18
Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya JIa: A Unified Query-based Paradigm for Point Cloud Understanding. CVPR 2022
SAT	0.742 32	0.860 25	0.765 56	0.819 35	0.769 14	0.848 27	0.533 27	0.829 41	0.663 24	0.631 37	0.955 35	0.586 17	0.274 53	0.753 27	0.896 17	0.729 33	0.760 57	0.666 33	0.921 33	0.855 38	0.733 23

LRPNet	0.742 32	0.816 39	0.806 28	0.807 44	0.752 24	0.828 51	0.575 8	0.839 38	0.699 9	0.637 35	0.954 41	0.520 47	0.320 28	0.755 26	0.834 43	0.760 22	0.772 46	0.676 26	0.915 41	0.862 31	0.717 34

LargeKernel3D	0.739 34	0.909 13	0.820 12	0.806 46	0.740 32	0.852 22	0.545 21	0.826 42	0.594 58	0.643 28	0.955 35	0.541 35	0.263 63	0.723 38	0.858 32	0.775 18	0.767 50	0.678 22	0.933 23	0.848 44	0.694 43
Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia: LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs. CVPR 2023
RPN	0.736 35	0.776 52	0.790 40	0.851 11	0.754 23	0.854 18	0.491 53	0.866 26	0.596 57	0.686 9	0.955 35	0.536 37	0.342 16	0.624 57	0.869 26	0.787 11	0.802 21	0.628 46	0.927 27	0.875 21	0.704 40

MinkowskiNet	0.736 35	0.859 26	0.818 17	0.832 31	0.709 41	0.840 35	0.521 34	0.853 30	0.660 26	0.643 28	0.951 52	0.544 34	0.286 45	0.731 36	0.893 18	0.675 62	0.772 46	0.683 21	0.874 74	0.852 42	0.727 27
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
IPCA	0.731 37	0.890 18	0.837 4	0.864 4	0.726 37	0.873 5	0.530 31	0.824 44	0.489 94	0.647 25	0.978 6	0.609 5	0.336 20	0.624 57	0.733 64	0.758 23	0.776 44	0.570 72	0.949 9	0.877 17	0.728 25

MS-SFA-net	0.730 38	0.910 12	0.819 14	0.837 25	0.698 44	0.838 38	0.532 29	0.872 21	0.605 50	0.676 15	0.959 23	0.535 39	0.341 17	0.649 46	0.598 88	0.708 47	0.810 16	0.664 35	0.895 54	0.879 16	0.771 12

online3d	0.727 39	0.715 84	0.777 49	0.854 8	0.748 29	0.858 13	0.497 48	0.872 21	0.572 67	0.639 33	0.957 29	0.523 44	0.297 38	0.750 30	0.803 53	0.744 28	0.810 16	0.587 68	0.938 18	0.871 26	0.719 33

SparseConvNet	0.725 40	0.647 97	0.821 11	0.846 17	0.721 38	0.869 6	0.533 27	0.754 65	0.603 53	0.614 43	0.955 35	0.572 24	0.325 26	0.710 39	0.870 25	0.724 37	0.823 4	0.628 46	0.934 22	0.865 30	0.683 46

PointTransformer++	0.725 40	0.727 77	0.811 25	0.819 35	0.765 15	0.841 34	0.502 42	0.814 49	0.621 42	0.623 40	0.955 35	0.556 31	0.284 46	0.620 59	0.866 27	0.781 14	0.757 61	0.648 37	0.932 25	0.862 31	0.709 38

MatchingNet	0.724 42	0.812 41	0.812 23	0.810 41	0.735 34	0.834 44	0.495 50	0.860 29	0.572 67	0.602 51	0.954 41	0.512 49	0.280 49	0.757 24	0.845 41	0.725 36	0.780 41	0.606 56	0.937 19	0.851 43	0.700 42

INS-Conv-semantic	0.717 43	0.751 65	0.759 59	0.812 39	0.704 42	0.868 7	0.537 26	0.842 36	0.609 48	0.608 47	0.953 45	0.534 40	0.293 40	0.616 60	0.864 28	0.719 41	0.793 34	0.640 41	0.933 23	0.845 48	0.663 52

PointMetaBase	0.714 44	0.835 32	0.785 44	0.821 33	0.684 49	0.846 30	0.531 30	0.865 27	0.614 43	0.596 55	0.953 45	0.500 52	0.246 69	0.674 41	0.888 20	0.692 54	0.764 53	0.624 48	0.849 89	0.844 49	0.675 48

contrastBoundary	0.705 45	0.769 59	0.775 50	0.809 42	0.687 48	0.820 60	0.439 80	0.812 50	0.661 25	0.591 57	0.945 71	0.515 48	0.171 99	0.633 54	0.856 33	0.720 39	0.796 30	0.668 32	0.889 59	0.847 45	0.689 44
Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao: Contrastive Boundary Learning for Point Cloud Segmentation. CVPR2022
ClickSeg_Semantic	0.703 46	0.774 54	0.800 31	0.793 53	0.760 18	0.847 29	0.471 58	0.802 53	0.463 101	0.634 36	0.968 14	0.491 55	0.271 57	0.726 37	0.910 9	0.706 48	0.815 9	0.551 84	0.878 68	0.833 50	0.570 84

RFCR	0.702 47	0.889 19	0.745 71	0.813 38	0.672 52	0.818 64	0.493 51	0.815 48	0.623 40	0.610 45	0.947 65	0.470 64	0.249 68	0.594 64	0.848 40	0.705 49	0.779 42	0.646 38	0.892 57	0.823 56	0.611 67
Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma: Omni-Supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning. CVPR2021
One Thing One Click	0.701 48	0.825 36	0.796 35	0.723 69	0.716 39	0.832 46	0.433 82	0.816 46	0.634 37	0.609 46	0.969 12	0.418 90	0.344 14	0.559 76	0.833 44	0.715 43	0.808 19	0.560 78	0.902 48	0.847 45	0.680 47

JSENet	0.699 49	0.881 21	0.762 57	0.821 33	0.667 53	0.800 77	0.522 33	0.792 56	0.613 44	0.607 48	0.935 91	0.492 54	0.205 86	0.576 69	0.853 37	0.691 56	0.758 59	0.652 36	0.872 77	0.828 53	0.649 56
Zeyu HU, Mingmin Zhen, Xuyang BAI, Hongbo Fu, Chiew-lan Tai: JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D Point Clouds. ECCV 2020
One-Thing-One-Click	0.693 50	0.743 68	0.794 37	0.655 92	0.684 49	0.822 57	0.497 48	0.719 75	0.622 41	0.617 42	0.977 10	0.447 77	0.339 18	0.750 30	0.664 81	0.703 51	0.790 37	0.596 61	0.946 12	0.855 38	0.647 57
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
PicassoNet-II	0.692 51	0.732 73	0.772 51	0.786 54	0.677 51	0.866 9	0.517 35	0.848 32	0.509 87	0.626 38	0.952 50	0.536 37	0.225 76	0.545 82	0.704 71	0.689 59	0.810 16	0.564 77	0.903 47	0.854 40	0.729 24
Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian: Geometric feature learning for 3D meshes.
Feature_GeometricNet	0.690 52	0.884 20	0.754 63	0.795 51	0.647 60	0.818 64	0.422 84	0.802 53	0.612 45	0.604 49	0.945 71	0.462 67	0.189 94	0.563 75	0.853 37	0.726 35	0.765 52	0.632 44	0.904 45	0.821 59	0.606 71
Kangcheng Liu, Ben M. Chen: https://arxiv.org/abs/2012.09439. arXiv Preprint
FusionNet	0.688 53	0.704 86	0.741 75	0.754 66	0.656 55	0.829 49	0.501 43	0.741 70	0.609 48	0.548 65	0.950 56	0.522 46	0.371 5	0.633 54	0.756 59	0.715 43	0.771 48	0.623 49	0.861 85	0.814 62	0.658 53
Feihu Zhang, Jin Fang, Benjamin Wah, Philip Torr: Deep FusionNet for Point Cloud Semantic Segmentation. ECCV 2020
Feature-Geometry Net	0.685 54	0.866 23	0.748 68	0.819 35	0.645 62	0.794 80	0.450 70	0.802 53	0.587 60	0.604 49	0.945 71	0.464 66	0.201 89	0.554 78	0.840 42	0.723 38	0.732 72	0.602 59	0.907 43	0.822 58	0.603 74

VACNN++	0.684 55	0.728 76	0.757 62	0.776 59	0.690 45	0.804 75	0.464 63	0.816 46	0.577 66	0.587 58	0.945 71	0.508 51	0.276 52	0.671 42	0.710 69	0.663 67	0.750 65	0.589 66	0.881 65	0.832 52	0.653 55

KP-FCNN	0.684 55	0.847 29	0.758 61	0.784 56	0.647 60	0.814 67	0.473 57	0.772 59	0.605 50	0.594 56	0.935 91	0.450 75	0.181 97	0.587 65	0.805 52	0.690 57	0.785 40	0.614 52	0.882 64	0.819 60	0.632 63
H. Thomas, C. Qi, J. Deschaud, B. Marcotegui, F. Goulette, L. Guibas.: KPConv: Flexible and Deformable Convolution for Point Clouds. ICCV 2019
DGNet	0.684 55	0.712 85	0.784 45	0.782 58	0.658 54	0.835 43	0.499 47	0.823 45	0.641 34	0.597 54	0.950 56	0.487 57	0.281 48	0.575 70	0.619 85	0.647 75	0.764 53	0.620 51	0.871 80	0.846 47	0.688 45

PointContrast_LA_SEM	0.683 58	0.757 63	0.784 45	0.786 54	0.639 64	0.824 55	0.408 87	0.775 58	0.604 52	0.541 67	0.934 95	0.532 41	0.269 59	0.552 79	0.777 57	0.645 78	0.793 34	0.640 41	0.913 42	0.824 55	0.671 49

Superpoint Network	0.683 58	0.851 28	0.728 79	0.800 50	0.653 57	0.806 73	0.468 60	0.804 51	0.572 67	0.602 51	0.946 68	0.453 74	0.239 72	0.519 87	0.822 46	0.689 59	0.762 56	0.595 63	0.895 54	0.827 54	0.630 64

VI-PointConv	0.676 60	0.770 58	0.754 63	0.783 57	0.621 68	0.814 67	0.552 18	0.758 63	0.571 70	0.557 63	0.954 41	0.529 42	0.268 61	0.530 85	0.682 75	0.675 62	0.719 75	0.603 58	0.888 60	0.833 50	0.665 51
Xingyi Li, Wenxuan Wu, Xiaoli Z. Fern, Li Fuxin: The Devils in the Point Clouds: Studying the Robustness of Point Cloud Convolutions.
ROSMRF3D	0.673 61	0.789 45	0.748 68	0.763 64	0.635 66	0.814 67	0.407 89	0.747 67	0.581 64	0.573 60	0.950 56	0.484 58	0.271 57	0.607 61	0.754 60	0.649 72	0.774 45	0.596 61	0.883 63	0.823 56	0.606 71

SALANet	0.670 62	0.816 39	0.770 54	0.768 61	0.652 58	0.807 72	0.451 67	0.747 67	0.659 28	0.545 66	0.924 101	0.473 63	0.149 109	0.571 72	0.811 51	0.635 82	0.746 66	0.623 49	0.892 57	0.794 76	0.570 84

O3DSeg	0.668 63	0.822 37	0.771 53	0.496 113	0.651 59	0.833 45	0.541 23	0.761 62	0.555 76	0.611 44	0.966 15	0.489 56	0.370 6	0.388 106	0.580 89	0.776 17	0.751 63	0.570 72	0.956 7	0.817 61	0.646 58

PointConv	0.666 64	0.781 49	0.759 59	0.699 77	0.644 63	0.822 57	0.475 56	0.779 57	0.564 73	0.504 84	0.953 45	0.428 84	0.203 88	0.586 67	0.754 60	0.661 68	0.753 62	0.588 67	0.902 48	0.813 64	0.642 59
Wenxuan Wu, Zhongang Qi, Li Fuxin: PointConv: Deep Convolutional Networks on 3D Point Clouds. CVPR 2019
PointASNL	0.666 64	0.703 87	0.781 47	0.751 68	0.655 56	0.830 48	0.471 58	0.769 60	0.474 97	0.537 69	0.951 52	0.475 62	0.279 50	0.635 52	0.698 74	0.675 62	0.751 63	0.553 83	0.816 96	0.806 66	0.703 41
Xu Yan, Chaoda Zheng, Zhen Li, Sheng Wang, Shuguang Cui: PointASNL: Robust Point Clouds Processing using Nonlocal Neural Networks with Adaptive Sampling. CVPR 2020
PPCNN++	0.663 66	0.746 66	0.708 82	0.722 70	0.638 65	0.820 60	0.451 67	0.566 103	0.599 55	0.541 67	0.950 56	0.510 50	0.313 30	0.648 48	0.819 49	0.616 87	0.682 90	0.590 65	0.869 81	0.810 65	0.656 54
Pyunghwan Ahn, Juyoung Yang, Eojindl Yi, Chanho Lee, Junmo Kim: Projection-based Point Convolution for Efficient Point Cloud Segmentation. IEEE Access
MVF-GNN	0.658 67	0.558 109	0.751 66	0.655 92	0.690 45	0.722 102	0.453 66	0.867 24	0.579 65	0.576 59	0.893 113	0.523 44	0.293 40	0.733 35	0.571 91	0.692 54	0.659 97	0.606 56	0.875 71	0.804 68	0.668 50

DCM-Net	0.658 67	0.778 50	0.702 85	0.806 46	0.619 69	0.813 70	0.468 60	0.693 83	0.494 90	0.524 75	0.941 83	0.449 76	0.298 37	0.510 89	0.821 47	0.675 62	0.727 74	0.568 75	0.826 94	0.803 69	0.637 61
Jonas Schult, Francis Engelmann, Theodora Kontogianni, Bastian Leibe: DualConvMesh-Net: Joint Geodesic and Euclidean Convolutions on 3D Meshes. CVPR 2020 [Oral]
HPGCNN	0.656 69	0.698 89	0.743 73	0.650 94	0.564 86	0.820 60	0.505 41	0.758 63	0.631 38	0.479 88	0.945 71	0.480 60	0.226 74	0.572 71	0.774 58	0.690 57	0.735 70	0.614 52	0.853 88	0.776 91	0.597 77
Jisheng Dang, Qingyong Hu, Yulan Guo, Jun Yang: HPGCNN.
SAFNet-seg	0.654 70	0.752 64	0.734 77	0.664 90	0.583 81	0.815 66	0.399 91	0.754 65	0.639 35	0.535 71	0.942 81	0.470 64	0.309 32	0.665 43	0.539 93	0.650 71	0.708 80	0.635 43	0.857 87	0.793 78	0.642 59
Linqing Zhao, Jiwen Lu, Jie Zhou: Similarity-Aware Fusion Network for 3D Semantic Segmentation. IROS 2021
RandLA-Net	0.645 71	0.778 50	0.731 78	0.699 77	0.577 82	0.829 49	0.446 72	0.736 71	0.477 96	0.523 77	0.945 71	0.454 71	0.269 59	0.484 96	0.749 63	0.618 85	0.738 68	0.599 60	0.827 93	0.792 81	0.621 66

PointConv-SFPN	0.641 72	0.776 52	0.703 84	0.721 71	0.557 89	0.826 52	0.451 67	0.672 88	0.563 74	0.483 87	0.943 80	0.425 87	0.162 104	0.644 49	0.726 65	0.659 69	0.709 79	0.572 71	0.875 71	0.786 86	0.559 90

MVPNet	0.641 72	0.831 33	0.715 80	0.671 87	0.590 77	0.781 86	0.394 93	0.679 85	0.642 33	0.553 64	0.937 88	0.462 67	0.256 65	0.649 46	0.406 106	0.626 83	0.691 87	0.666 33	0.877 69	0.792 81	0.608 70
Maximilian Jaritz, Jiayuan Gu, Hao Su: Multi-view PointNet for 3D Scene Understanding. GMDL Workshop, ICCV 2019
PointMRNet	0.640 74	0.717 83	0.701 86	0.692 80	0.576 83	0.801 76	0.467 62	0.716 76	0.563 74	0.459 94	0.953 45	0.429 83	0.169 101	0.581 68	0.854 36	0.605 88	0.710 77	0.550 85	0.894 56	0.793 78	0.575 82

FPConv	0.639 75	0.785 47	0.760 58	0.713 75	0.603 72	0.798 78	0.392 95	0.534 108	0.603 53	0.524 75	0.948 63	0.457 69	0.250 67	0.538 83	0.723 67	0.598 92	0.696 85	0.614 52	0.872 77	0.799 71	0.567 87
Yiqun Lin, Zizheng Yan, Haibin Huang, Dong Du, Ligang Liu, Shuguang Cui, Xiaoguang Han: FPConv: Learning Local Flattening for Point Convolution. CVPR 2020
PD-Net	0.638 76	0.797 43	0.769 55	0.641 99	0.590 77	0.820 60	0.461 64	0.537 107	0.637 36	0.536 70	0.947 65	0.388 97	0.206 85	0.656 44	0.668 79	0.647 75	0.732 72	0.585 69	0.868 82	0.793 78	0.473 110

PointSPNet	0.637 77	0.734 72	0.692 93	0.714 74	0.576 83	0.797 79	0.446 72	0.743 69	0.598 56	0.437 99	0.942 81	0.403 93	0.150 108	0.626 56	0.800 55	0.649 72	0.697 84	0.557 81	0.846 90	0.777 90	0.563 88

SConv	0.636 78	0.830 34	0.697 89	0.752 67	0.572 85	0.780 88	0.445 74	0.716 76	0.529 80	0.530 72	0.951 52	0.446 78	0.170 100	0.507 91	0.666 80	0.636 81	0.682 90	0.541 91	0.886 61	0.799 71	0.594 78

Supervoxel-CNN	0.635 79	0.656 95	0.711 81	0.719 72	0.613 70	0.757 97	0.444 77	0.765 61	0.534 79	0.566 61	0.928 99	0.478 61	0.272 55	0.636 51	0.531 95	0.664 66	0.645 101	0.508 99	0.864 84	0.792 81	0.611 67

joint point-based	0.634 80	0.614 103	0.778 48	0.667 89	0.633 67	0.825 53	0.420 85	0.804 51	0.467 99	0.561 62	0.951 52	0.494 53	0.291 42	0.566 73	0.458 101	0.579 98	0.764 53	0.559 80	0.838 91	0.814 62	0.598 76
Hung-Yueh Chiang, Yen-Liang Lin, Yueh-Cheng Liu, Winston H. Hsu: A Unified Point-Based Framework for 3D Segmentation. 3DV 2019
PointMTL	0.632 81	0.731 74	0.688 96	0.675 84	0.591 76	0.784 85	0.444 77	0.565 104	0.610 46	0.492 85	0.949 60	0.456 70	0.254 66	0.587 65	0.706 70	0.599 91	0.665 96	0.612 55	0.868 82	0.791 84	0.579 81

PointNet2-SFPN	0.631 82	0.771 56	0.692 93	0.672 85	0.524 95	0.837 40	0.440 79	0.706 81	0.538 78	0.446 96	0.944 77	0.421 89	0.219 79	0.552 79	0.751 62	0.591 94	0.737 69	0.543 90	0.901 50	0.768 93	0.557 91

APCF-Net	0.631 82	0.742 69	0.687 98	0.672 85	0.557 89	0.792 83	0.408 87	0.665 90	0.545 77	0.508 81	0.952 50	0.428 84	0.186 95	0.634 53	0.702 72	0.620 84	0.706 81	0.555 82	0.873 75	0.798 73	0.581 80
Haojia, Lin: Adaptive Pyramid Context Fusion for Point Cloud Perception. GRSL
3DSM_DMMF	0.631 82	0.626 100	0.745 71	0.801 49	0.607 71	0.751 98	0.506 40	0.729 74	0.565 72	0.491 86	0.866 116	0.434 79	0.197 92	0.595 63	0.630 84	0.709 46	0.705 82	0.560 78	0.875 71	0.740 101	0.491 105

FusionAwareConv	0.630 85	0.604 105	0.741 75	0.766 63	0.590 77	0.747 99	0.501 43	0.734 72	0.503 89	0.527 73	0.919 105	0.454 71	0.323 27	0.550 81	0.420 105	0.678 61	0.688 88	0.544 88	0.896 53	0.795 75	0.627 65
Jiazhao Zhang, Chenyang Zhu, Lintao Zheng, Kai Xu: Fusion-Aware Point Convolution for Online Semantic 3D Scene Segmentation. CVPR 2020
DenSeR	0.628 86	0.800 42	0.625 108	0.719 72	0.545 92	0.806 73	0.445 74	0.597 98	0.448 104	0.519 79	0.938 87	0.481 59	0.328 25	0.489 95	0.499 100	0.657 70	0.759 58	0.592 64	0.881 65	0.797 74	0.634 62

SegGroup_sem	0.627 87	0.818 38	0.747 70	0.701 76	0.602 73	0.764 94	0.385 99	0.629 95	0.490 92	0.508 81	0.931 98	0.409 92	0.201 89	0.564 74	0.725 66	0.618 85	0.692 86	0.539 92	0.873 75	0.794 76	0.548 94
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
SIConv	0.625 88	0.830 34	0.694 91	0.757 65	0.563 87	0.772 92	0.448 71	0.647 93	0.520 83	0.509 80	0.949 60	0.431 82	0.191 93	0.496 93	0.614 86	0.647 75	0.672 94	0.535 95	0.876 70	0.783 87	0.571 83

dtc_net	0.625 88	0.703 87	0.751 66	0.794 52	0.535 93	0.848 27	0.480 55	0.676 87	0.528 81	0.469 91	0.944 77	0.454 71	0.004 121	0.464 98	0.636 83	0.704 50	0.758 59	0.548 87	0.924 30	0.787 85	0.492 104

Weakly-Openseg v3	0.625 88	0.924 8	0.787 43	0.620 101	0.555 91	0.811 71	0.393 94	0.666 89	0.382 112	0.520 78	0.953 45	0.250 116	0.208 83	0.604 62	0.670 77	0.644 79	0.742 67	0.538 93	0.919 36	0.803 69	0.513 102

HPEIN	0.618 91	0.729 75	0.668 99	0.647 96	0.597 75	0.766 93	0.414 86	0.680 84	0.520 83	0.525 74	0.946 68	0.432 80	0.215 81	0.493 94	0.599 87	0.638 80	0.617 106	0.570 72	0.897 52	0.806 66	0.605 73
Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi-Wing Fu, Jiaya Jia: Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation. ICCV 2019
SPH3D-GCN	0.610 92	0.858 27	0.772 51	0.489 114	0.532 94	0.792 83	0.404 90	0.643 94	0.570 71	0.507 83	0.935 91	0.414 91	0.046 118	0.510 89	0.702 72	0.602 90	0.705 82	0.549 86	0.859 86	0.773 92	0.534 97
Huan Lei, Naveed Akhtar, and Ajmal Mian: Spherical Kernel for Efficient Graph Convolution on 3D Point Clouds. TPAMI 2020
AttAN	0.609 93	0.760 61	0.667 100	0.649 95	0.521 96	0.793 81	0.457 65	0.648 92	0.528 81	0.434 101	0.947 65	0.401 94	0.153 107	0.454 99	0.721 68	0.648 74	0.717 76	0.536 94	0.904 45	0.765 94	0.485 106
Gege Zhang, Qinghua Ma, Licheng Jiao, Fang Liu and Qigong Sun: AttAN: Attention Adversarial Networks for 3D Point Cloud Semantic Segmentation. IJCAI2020
wsss-transformer	0.600 94	0.634 99	0.743 73	0.697 79	0.601 74	0.781 86	0.437 81	0.585 101	0.493 91	0.446 96	0.933 96	0.394 95	0.011 120	0.654 45	0.661 82	0.603 89	0.733 71	0.526 96	0.832 92	0.761 96	0.480 107

LAP-D	0.594 95	0.720 81	0.692 93	0.637 100	0.456 105	0.773 91	0.391 97	0.730 73	0.587 60	0.445 98	0.940 85	0.381 98	0.288 43	0.434 102	0.453 103	0.591 94	0.649 99	0.581 70	0.777 100	0.749 100	0.610 69

DPC	0.592 96	0.720 81	0.700 87	0.602 105	0.480 101	0.762 96	0.380 100	0.713 79	0.585 63	0.437 99	0.940 85	0.369 100	0.288 43	0.434 102	0.509 99	0.590 96	0.639 104	0.567 76	0.772 101	0.755 98	0.592 79
Francis Engelmann, Theodora Kontogianni, Bastian Leibe: Dilated Point Convolutions: On the Receptive Field Size of Point Convolutions on 3D Point Clouds. ICRA 2020
CCRFNet	0.589 97	0.766 60	0.659 103	0.683 82	0.470 104	0.740 101	0.387 98	0.620 97	0.490 92	0.476 89	0.922 103	0.355 103	0.245 70	0.511 88	0.511 98	0.571 99	0.643 102	0.493 103	0.872 77	0.762 95	0.600 75

ROSMRF	0.580 98	0.772 55	0.707 83	0.681 83	0.563 87	0.764 94	0.362 102	0.515 109	0.465 100	0.465 93	0.936 90	0.427 86	0.207 84	0.438 100	0.577 90	0.536 102	0.675 93	0.486 104	0.723 107	0.779 88	0.524 99

SD-DETR	0.576 99	0.746 66	0.609 112	0.445 118	0.517 97	0.643 113	0.366 101	0.714 78	0.456 102	0.468 92	0.870 115	0.432 80	0.264 62	0.558 77	0.674 76	0.586 97	0.688 88	0.482 105	0.739 105	0.733 103	0.537 96

SQN_0.1%	0.569 100	0.676 91	0.696 90	0.657 91	0.497 98	0.779 89	0.424 83	0.548 105	0.515 85	0.376 106	0.902 112	0.422 88	0.357 10	0.379 107	0.456 102	0.596 93	0.659 97	0.544 88	0.685 110	0.665 114	0.556 92

TextureNet	0.566 101	0.672 93	0.664 101	0.671 87	0.494 99	0.719 103	0.445 74	0.678 86	0.411 110	0.396 104	0.935 91	0.356 102	0.225 76	0.412 104	0.535 94	0.565 100	0.636 105	0.464 107	0.794 99	0.680 111	0.568 86
Jingwei Huang, Haotian Zhang, Li Yi, Thomas Funkerhouser, Matthias Niessner, Leonidas Guibas: TextureNet: Consistent Local Parametrizations for Learning from High-Resolution Signals on Meshes. CVPR
DVVNet	0.562 102	0.648 96	0.700 87	0.770 60	0.586 80	0.687 107	0.333 106	0.650 91	0.514 86	0.475 90	0.906 109	0.359 101	0.223 78	0.340 109	0.442 104	0.422 113	0.668 95	0.501 100	0.708 108	0.779 88	0.534 97

Pointnet++ & Feature	0.557 103	0.735 71	0.661 102	0.686 81	0.491 100	0.744 100	0.392 95	0.539 106	0.451 103	0.375 107	0.946 68	0.376 99	0.205 86	0.403 105	0.356 109	0.553 101	0.643 102	0.497 101	0.824 95	0.756 97	0.515 100

GMLPs	0.538 104	0.495 114	0.693 92	0.647 96	0.471 103	0.793 81	0.300 109	0.477 110	0.505 88	0.358 108	0.903 111	0.327 106	0.081 115	0.472 97	0.529 96	0.448 111	0.710 77	0.509 97	0.746 103	0.737 102	0.554 93

PanopticFusion-label	0.529 105	0.491 115	0.688 96	0.604 104	0.386 110	0.632 114	0.225 120	0.705 82	0.434 107	0.293 114	0.815 118	0.348 104	0.241 71	0.499 92	0.669 78	0.507 104	0.649 99	0.442 113	0.796 98	0.602 118	0.561 89
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
subcloud_weak	0.516 106	0.676 91	0.591 115	0.609 102	0.442 106	0.774 90	0.335 105	0.597 98	0.422 109	0.357 109	0.932 97	0.341 105	0.094 114	0.298 111	0.528 97	0.473 109	0.676 92	0.495 102	0.602 116	0.721 106	0.349 118

Online SegFusion	0.515 107	0.607 104	0.644 106	0.579 107	0.434 107	0.630 115	0.353 103	0.628 96	0.440 105	0.410 102	0.762 121	0.307 108	0.167 102	0.520 86	0.403 107	0.516 103	0.565 109	0.447 111	0.678 111	0.701 108	0.514 101
Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstroem, Cristian Sminchisescu, Luc van Gool: A Real-Time Learning Framework for Joint 3D Reconstruction and Semantic Segmentation. Robotics and Automation Letters Submission
3DMV, FTSDF	0.501 108	0.558 109	0.608 113	0.424 120	0.478 102	0.690 106	0.246 116	0.586 100	0.468 98	0.450 95	0.911 107	0.394 95	0.160 105	0.438 100	0.212 116	0.432 112	0.541 114	0.475 106	0.742 104	0.727 104	0.477 108

PCNN	0.498 109	0.559 108	0.644 106	0.560 109	0.420 109	0.711 105	0.229 118	0.414 111	0.436 106	0.352 110	0.941 83	0.324 107	0.155 106	0.238 116	0.387 108	0.493 105	0.529 115	0.509 97	0.813 97	0.751 99	0.504 103

3DMV	0.484 110	0.484 116	0.538 118	0.643 98	0.424 108	0.606 118	0.310 107	0.574 102	0.433 108	0.378 105	0.796 119	0.301 109	0.214 82	0.537 84	0.208 117	0.472 110	0.507 118	0.413 116	0.693 109	0.602 118	0.539 95
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
PointCNN with RGB	0.458 111	0.577 107	0.611 111	0.356 122	0.321 118	0.715 104	0.299 111	0.376 115	0.328 118	0.319 112	0.944 77	0.285 111	0.164 103	0.216 119	0.229 114	0.484 107	0.545 113	0.456 109	0.755 102	0.709 107	0.475 109
Yangyan Li, Rui Bu, Mingchao Sun, Baoquan Chen: PointCNN. NeurIPS 2018
FCPN	0.447 112	0.679 90	0.604 114	0.578 108	0.380 111	0.682 108	0.291 112	0.106 122	0.483 95	0.258 120	0.920 104	0.258 115	0.025 119	0.231 118	0.325 110	0.480 108	0.560 111	0.463 108	0.725 106	0.666 113	0.231 122
Dario Rethage, Johanna Wald, Jürgen Sturm, Nassir Navab, Federico Tombari: Fully-Convolutional Point Networks for Large-Scale Point Clouds. ECCV 2018
DGCNN_reproduce	0.446 113	0.474 117	0.623 109	0.463 116	0.366 113	0.651 111	0.310 107	0.389 114	0.349 116	0.330 111	0.937 88	0.271 113	0.126 111	0.285 112	0.224 115	0.350 118	0.577 108	0.445 112	0.625 114	0.723 105	0.394 114
Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E. Sarma, Michael M. Bronstein, Justin M. Solomon: Dynamic Graph CNN for Learning on Point Clouds. TOG 2019
PNET2	0.442 114	0.548 111	0.548 117	0.597 106	0.363 114	0.628 116	0.300 109	0.292 117	0.374 113	0.307 113	0.881 114	0.268 114	0.186 95	0.238 116	0.204 118	0.407 114	0.506 119	0.449 110	0.667 112	0.620 117	0.462 112

SurfaceConvPF	0.442 114	0.505 113	0.622 110	0.380 121	0.342 116	0.654 110	0.227 119	0.397 113	0.367 114	0.276 116	0.924 101	0.240 117	0.198 91	0.359 108	0.262 112	0.366 115	0.581 107	0.435 114	0.640 113	0.668 112	0.398 113
Hao Pan, Shilin Liu, Yang Liu, Xin Tong: Convolutional Neural Networks on 3D Surfaces Using Parallel Frames.
Tangent Convolutions	0.438 116	0.437 119	0.646 105	0.474 115	0.369 112	0.645 112	0.353 103	0.258 119	0.282 121	0.279 115	0.918 106	0.298 110	0.147 110	0.283 113	0.294 111	0.487 106	0.562 110	0.427 115	0.619 115	0.633 116	0.352 117
Maxim Tatarchenko, Jaesik Park, Vladlen Koltun, Qian-Yi Zhou: Tangent convolutions for dense prediction in 3d. CVPR 2018
3DWSSS	0.425 117	0.525 112	0.647 104	0.522 110	0.324 117	0.488 122	0.077 123	0.712 80	0.353 115	0.401 103	0.636 123	0.281 112	0.176 98	0.340 109	0.565 92	0.175 122	0.551 112	0.398 117	0.370 123	0.602 118	0.361 116

SPLAT Net	0.393 118	0.472 118	0.511 119	0.606 103	0.311 119	0.656 109	0.245 117	0.405 112	0.328 118	0.197 121	0.927 100	0.227 119	0.000 123	0.001 124	0.249 113	0.271 121	0.510 116	0.383 119	0.593 117	0.699 109	0.267 120
Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz: SPLATNet: Sparse Lattice Networks for Point Cloud Processing. CVPR 2018
ScanNet+FTSDF	0.383 119	0.297 121	0.491 120	0.432 119	0.358 115	0.612 117	0.274 114	0.116 121	0.411 110	0.265 117	0.904 110	0.229 118	0.079 116	0.250 114	0.185 119	0.320 119	0.510 116	0.385 118	0.548 118	0.597 121	0.394 114

PointNet++	0.339 120	0.584 106	0.478 121	0.458 117	0.256 121	0.360 123	0.250 115	0.247 120	0.278 122	0.261 119	0.677 122	0.183 120	0.117 112	0.212 120	0.145 121	0.364 116	0.346 123	0.232 123	0.548 118	0.523 122	0.252 121
Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas: pointnet++: deep hierarchical feature learning on point sets in a metric space.
GrowSP++	0.323 121	0.114 123	0.589 116	0.499 112	0.147 123	0.555 119	0.290 113	0.336 116	0.290 120	0.262 118	0.865 117	0.102 123	0.000 123	0.037 122	0.000 124	0.000 124	0.462 120	0.381 120	0.389 122	0.664 115	0.473 110

SSC-UNet	0.308 122	0.353 120	0.290 123	0.278 123	0.166 122	0.553 120	0.169 122	0.286 118	0.147 123	0.148 123	0.908 108	0.182 121	0.064 117	0.023 123	0.018 123	0.354 117	0.363 121	0.345 121	0.546 120	0.685 110	0.278 119

ScanNet	0.306 123	0.203 122	0.366 122	0.501 111	0.311 119	0.524 121	0.211 121	0.002 124	0.342 117	0.189 122	0.786 120	0.145 122	0.102 113	0.245 115	0.152 120	0.318 120	0.348 122	0.300 122	0.460 121	0.437 123	0.182 123
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17
ERROR	0.054 124	0.000 124	0.041 124	0.172 124	0.030 124	0.062 124	0.001 124	0.035 123	0.004 124	0.051 124	0.143 124	0.019 124	0.003 122	0.041 121	0.050 122	0.003 123	0.054 124	0.018 124	0.005 124	0.264 124	0.082 124

This table lists the benchmark results for the 3D semantic instance scenario.

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

PointComp	0.629 1	0.787 25	0.679 10	0.574 5	0.502 3	0.824 1	0.378 1	0.480 39	0.483 3	0.480 16	0.601 1	0.744 1	0.682 8	0.809 8	0.460 21	0.819 1	0.643 2	0.935 13	0.449 3

PointRel	0.622 2	0.926 8	0.710 3	0.541 11	0.502 2	0.772 8	0.314 5	0.598 11	0.425 10	0.504 11	0.565 3	0.650 8	0.716 2	0.809 7	0.476 12	0.747 6	0.618 3	0.963 4	0.364 21
: Relation3D: Enhancing Relation Modeling for Point Cloud Instance Segmentation. CVPR 2025
Competitor-MAFT	0.618 3	0.866 16	0.724 1	0.628 1	0.484 5	0.803 3	0.300 9	0.509 32	0.496 1	0.539 1	0.547 7	0.703 2	0.668 9	0.708 34	0.463 18	0.708 18	0.595 5	0.959 6	0.418 9

SIM3D	0.617 4	0.952 4	0.629 19	0.539 12	0.426 17	0.768 12	0.302 8	0.681 2	0.425 11	0.473 18	0.511 17	0.701 3	0.717 1	0.821 6	0.467 15	0.774 2	0.559 16	0.914 20	0.448 4

Spherical Mask(CtoF)	0.616 5	0.946 5	0.654 14	0.555 7	0.434 14	0.769 11	0.271 14	0.604 8	0.447 6	0.505 9	0.549 4	0.698 4	0.716 2	0.775 17	0.480 9	0.747 7	0.575 12	0.925 15	0.436 6

EV3D	0.615 6	0.946 5	0.652 15	0.555 7	0.433 15	0.773 7	0.271 15	0.604 8	0.447 6	0.506 8	0.544 8	0.698 4	0.716 2	0.775 17	0.480 9	0.747 7	0.572 14	0.925 15	0.435 7

DCD	0.614 7	0.892 13	0.633 18	0.434 30	0.495 4	0.810 2	0.292 10	0.501 33	0.408 12	0.525 5	0.582 2	0.688 6	0.625 11	0.801 9	0.608 1	0.672 22	0.649 1	0.965 3	0.476 1

ExtMask3D	0.598 8	0.852 17	0.692 8	0.433 33	0.461 9	0.791 5	0.264 16	0.488 36	0.493 2	0.508 7	0.528 16	0.594 14	0.706 6	0.791 11	0.483 7	0.734 11	0.595 6	0.911 22	0.437 5

MAFT	0.596 9	0.889 14	0.721 2	0.448 25	0.460 10	0.768 13	0.251 18	0.558 21	0.408 13	0.504 10	0.539 10	0.616 12	0.618 13	0.858 3	0.482 8	0.684 21	0.551 19	0.931 14	0.450 2

UniPerception	0.588 10	0.963 3	0.667 12	0.493 16	0.472 8	0.750 17	0.229 21	0.528 27	0.468 5	0.498 14	0.542 9	0.643 9	0.530 23	0.661 41	0.463 17	0.695 20	0.599 4	0.972 1	0.420 8

MG-Former	0.587 11	0.852 17	0.639 17	0.454 24	0.393 23	0.758 16	0.338 3	0.572 16	0.480 4	0.527 3	0.491 24	0.671 7	0.527 24	0.867 1	0.485 6	0.601 33	0.590 9	0.938 12	0.390 13

InsSSM	0.586 12	1.000 1	0.593 23	0.440 28	0.480 6	0.771 9	0.345 2	0.437 42	0.444 9	0.495 15	0.548 6	0.579 18	0.621 12	0.720 30	0.409 25	0.712 13	0.593 7	0.960 5	0.395 11
Lei Yao, Yi Wang, Moyun Liu, Lap-Pui Chau: SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation. TCSVT, 2024
Queryformer	0.583 13	0.926 8	0.702 5	0.393 39	0.504 1	0.733 23	0.276 13	0.527 28	0.373 19	0.479 17	0.534 12	0.533 25	0.697 7	0.720 31	0.436 23	0.745 9	0.592 8	0.958 7	0.363 22

KmaxOneFormerNet	0.581 14	0.745 30	0.692 9	0.551 9	0.458 11	0.798 4	0.264 17	0.531 26	0.369 21	0.513 6	0.531 15	0.632 10	0.494 27	0.798 10	0.567 3	0.648 26	0.558 18	0.950 9	0.362 24

Competitor-SPFormer	0.580 15	0.721 37	0.705 4	0.593 4	0.444 13	0.786 6	0.286 11	0.564 19	0.376 18	0.498 13	0.534 13	0.546 23	0.390 47	0.785 13	0.577 2	0.708 17	0.579 11	0.954 8	0.388 14

VDG-Uni3DSeg	0.576 16	0.833 21	0.699 6	0.483 18	0.412 21	0.767 14	0.313 6	0.461 41	0.446 8	0.526 4	0.498 22	0.584 15	0.551 19	0.743 26	0.464 16	0.766 3	0.538 23	0.919 18	0.363 23

PBNet	0.573 17	0.926 8	0.575 29	0.619 2	0.472 7	0.736 21	0.239 20	0.487 37	0.383 17	0.459 21	0.506 20	0.533 24	0.585 15	0.767 19	0.404 26	0.717 12	0.559 17	0.969 2	0.381 17
Weiguang Zhao, Yuyao Yan, Chaolong Yang, Jianan Ye, Xi Yang, Kaizhu Huang: Divide and Conquer: 3D Instance Segmentation With Point-Wise Binarization. ICCV 2023
TST3D	0.569 18	0.778 27	0.675 11	0.598 3	0.451 12	0.727 24	0.280 12	0.476 40	0.395 14	0.472 19	0.457 30	0.583 16	0.580 17	0.777 14	0.462 20	0.735 10	0.547 21	0.919 19	0.333 30
Duc Tran Dang Trung, Byeongkeun Kang, Yeejin Lee: MSTA3D: Multi-scale Twin-attention for 3D Instance Segmentation. ACM Multimedia 2024
Mask3D	0.566 19	0.926 8	0.597 22	0.408 36	0.420 19	0.737 20	0.239 19	0.598 11	0.386 16	0.458 22	0.549 4	0.568 21	0.716 2	0.601 47	0.480 9	0.646 27	0.575 12	0.922 17	0.364 20
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
OneFormer3D	0.566 19	0.781 26	0.697 7	0.562 6	0.431 16	0.770 10	0.331 4	0.400 48	0.373 20	0.529 2	0.504 21	0.568 20	0.475 31	0.732 28	0.470 13	0.762 4	0.550 20	0.871 37	0.379 18
Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: OneFormer3D: One Transformer for Unified Point Cloud Segmentation.
ISBNet	0.559 21	0.939 7	0.655 13	0.383 42	0.426 18	0.763 15	0.180 23	0.534 25	0.386 15	0.499 12	0.509 19	0.621 11	0.427 41	0.704 36	0.467 14	0.649 25	0.571 15	0.948 10	0.401 10
Tuan Duc Ngo, Binh-Son Hua, Khoi Nguyen: ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution. CVPR 2023
GraphCut	0.552 22	1.000 1	0.611 21	0.438 29	0.392 24	0.714 25	0.139 27	0.598 13	0.327 25	0.389 25	0.510 18	0.598 13	0.427 42	0.754 22	0.463 19	0.761 5	0.588 10	0.903 25	0.329 32

SPFormer	0.549 23	0.745 30	0.640 16	0.484 17	0.395 22	0.739 19	0.311 7	0.566 18	0.335 23	0.468 20	0.492 23	0.555 22	0.478 30	0.747 24	0.436 22	0.712 14	0.540 22	0.893 29	0.343 29
Sun Jiahao, Qing Chunmei, Tan Junpeng, Xu Xiangmin: Superpoint Transformer for 3D Scene Instance Segmentation. AAAI 2023 [Oral]
DKNet	0.532 24	0.815 22	0.624 20	0.517 13	0.377 26	0.749 18	0.107 29	0.509 31	0.304 27	0.437 23	0.475 25	0.581 17	0.539 21	0.775 16	0.339 32	0.640 29	0.506 26	0.901 26	0.385 16
Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong: 3D Instances as 1D Kernels. ECCV 2022
IPCA-Inst	0.520 25	0.889 14	0.551 33	0.548 10	0.418 20	0.665 35	0.064 38	0.585 14	0.260 35	0.277 40	0.471 27	0.500 26	0.644 10	0.785 12	0.369 28	0.591 37	0.511 24	0.878 34	0.362 25

SoftGroup++	0.513 26	0.704 39	0.578 28	0.398 38	0.363 32	0.704 26	0.061 39	0.647 5	0.297 32	0.378 28	0.537 11	0.343 30	0.614 14	0.828 5	0.295 37	0.710 16	0.505 28	0.875 36	0.394 12

SSTNet	0.506 27	0.738 34	0.549 34	0.497 15	0.316 38	0.693 29	0.178 24	0.377 52	0.198 41	0.330 31	0.463 29	0.576 19	0.515 25	0.857 4	0.494 4	0.637 30	0.457 32	0.943 11	0.290 41
Zhihao Liang, Zhihao Li, Songcen Xu, Mingkui Tan, Kui Jia: Instance Segmentation in 3D Scenes using Semantic Superpoint Tree Networks. ICCV2021
SoftGroup	0.504 28	0.667 46	0.579 26	0.372 44	0.381 25	0.694 28	0.072 35	0.677 3	0.303 28	0.387 26	0.531 14	0.319 34	0.582 16	0.754 21	0.318 33	0.643 28	0.492 29	0.907 24	0.388 15
Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo: SoftGroup for 3D Instance Segmentaiton on Point Clouds. CVPR 2022 [Oral]
DANCENET	0.504 28	0.926 8	0.579 25	0.472 20	0.367 29	0.626 45	0.165 25	0.432 43	0.221 37	0.408 24	0.449 32	0.411 28	0.564 18	0.746 25	0.421 24	0.707 19	0.438 35	0.846 45	0.288 42

TD3D	0.489 30	0.852 17	0.511 43	0.434 31	0.322 37	0.735 22	0.101 32	0.512 30	0.355 22	0.349 30	0.468 28	0.283 38	0.514 26	0.676 40	0.268 42	0.671 23	0.510 25	0.908 23	0.329 33
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
OccuSeg+instance	0.486 31	0.802 24	0.536 36	0.428 34	0.369 28	0.702 27	0.205 22	0.331 57	0.301 29	0.379 27	0.474 26	0.327 31	0.437 36	0.862 2	0.485 5	0.601 34	0.394 43	0.846 47	0.273 45
Lei Han, Tian Zheng, Lan Xu, Lu Fang: OccuSeg: Occupancy-aware 3D Instance Segmentation. CVPR2020
TopoSeg	0.479 32	0.704 39	0.564 30	0.467 22	0.366 30	0.633 43	0.068 36	0.554 22	0.262 34	0.328 32	0.447 33	0.323 32	0.534 22	0.722 29	0.288 39	0.614 31	0.482 30	0.912 21	0.358 27

DualGroup	0.469 33	0.815 22	0.552 32	0.398 37	0.374 27	0.683 31	0.130 28	0.539 24	0.310 26	0.327 33	0.407 36	0.276 39	0.447 35	0.535 51	0.342 31	0.659 24	0.455 33	0.900 28	0.301 37

SSEC	0.465 34	0.667 46	0.578 27	0.502 14	0.362 33	0.641 42	0.035 48	0.605 7	0.291 33	0.323 34	0.451 31	0.296 36	0.417 45	0.677 39	0.245 46	0.501 55	0.506 27	0.900 27	0.366 19

ODIN - Ins	0.463 35	0.738 34	0.589 24	0.344 48	0.358 34	0.560 54	0.139 26	0.393 51	0.331 24	0.373 29	0.392 39	0.496 27	0.493 28	0.709 33	0.377 27	0.599 35	0.359 49	0.752 57	0.332 31
Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki: ODIN: A Single Model for 2D and 3D Segmentation. CVPR 2024
HAIS	0.457 36	0.704 39	0.561 31	0.457 23	0.364 31	0.673 32	0.046 47	0.547 23	0.194 42	0.308 35	0.426 34	0.288 37	0.454 34	0.711 32	0.262 43	0.563 45	0.434 37	0.889 31	0.344 28
Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang: Hierarchical Aggregation for 3D Instance Segmentation. ICCV 2021
DD-UNet+Group	0.436 37	0.630 54	0.508 46	0.480 19	0.310 40	0.624 47	0.065 37	0.638 6	0.174 43	0.256 44	0.384 41	0.194 51	0.428 39	0.759 20	0.289 38	0.574 42	0.400 41	0.849 44	0.291 40
H. Liu, R. Liu, K. Yang, J. Zhang, K. Peng, R. Stiefelhagen: HIDA: Towards Holistic Indoor Understanding for the Visually Impaired via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor. ICCVW 2021
INS-Conv-instance	0.435 38	0.716 38	0.495 48	0.355 46	0.331 35	0.689 30	0.102 31	0.394 50	0.208 40	0.280 38	0.395 38	0.250 42	0.544 20	0.741 27	0.309 35	0.536 51	0.391 44	0.842 50	0.258 49

Mask-Group	0.434 39	0.778 27	0.516 41	0.471 21	0.330 36	0.658 36	0.029 50	0.526 29	0.249 36	0.256 43	0.400 37	0.309 35	0.384 50	0.296 67	0.368 29	0.575 41	0.425 38	0.877 35	0.362 26
Min Zhong, Xinghao Chen, Xiaokang Chen, Gang Zeng, Yunhe Wang: MaskGroup: Hierarchical Point Grouping and Masking for 3D Instance Segmentation. ICME 2022
Box2Mask	0.433 40	0.741 32	0.463 53	0.433 32	0.283 43	0.625 46	0.103 30	0.298 62	0.125 52	0.260 42	0.424 35	0.322 33	0.472 32	0.701 37	0.363 30	0.711 15	0.309 61	0.882 32	0.272 47
Julian Chibane, Francis Engelmann, Tuan Anh Tran, Gerard Pons-Moll: Box2Mask: Weakly Supervised 3D Semantic Instance Segmentation Using Bounding Boxes. ECCV 2022
RPGN	0.428 41	0.630 54	0.508 45	0.367 45	0.249 50	0.658 37	0.016 58	0.673 4	0.131 50	0.234 47	0.383 42	0.270 40	0.434 37	0.748 23	0.274 41	0.609 32	0.406 40	0.842 49	0.267 48
Shichao Dong, Guosheng Lin, Tzu-Yi Hung: Learning Regional Purity for Instance Segmentation on 3D Point Clouds. ECCV 2022
DENet	0.413 42	0.741 32	0.520 38	0.237 58	0.284 42	0.523 57	0.097 33	0.691 1	0.138 47	0.209 57	0.229 59	0.238 45	0.390 48	0.707 35	0.310 34	0.448 62	0.470 31	0.892 30	0.310 35

PointGroup	0.407 43	0.639 53	0.496 47	0.415 35	0.243 52	0.645 41	0.021 55	0.570 17	0.114 53	0.211 55	0.359 44	0.217 49	0.428 40	0.660 42	0.256 44	0.562 46	0.341 53	0.860 40	0.291 39
Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia: PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation. CVPR 2020 [oral]
CSC-Pretrained	0.405 44	0.738 34	0.465 52	0.331 51	0.205 56	0.655 38	0.051 43	0.601 10	0.092 57	0.211 56	0.329 47	0.198 50	0.459 33	0.775 15	0.195 53	0.524 53	0.400 42	0.878 33	0.184 58

PE	0.396 45	0.667 46	0.467 51	0.446 27	0.243 51	0.624 48	0.022 54	0.577 15	0.106 54	0.219 50	0.340 45	0.239 44	0.487 29	0.475 58	0.225 48	0.541 50	0.350 51	0.818 52	0.273 46
Biao Zhang, Peter Wonka: Point Cloud Instance Segmentation using Probabilistic Embeddings. CVPR 2021
Dyco3D	0.395 46	0.642 52	0.518 40	0.447 26	0.259 49	0.666 34	0.050 44	0.251 67	0.166 44	0.231 48	0.362 43	0.232 46	0.331 53	0.535 50	0.229 47	0.587 38	0.438 36	0.850 42	0.317 34
Tong He; Chunhua Shen; Anton van den Hengel: DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution. CVPR2021
OSIS	0.392 47	0.778 27	0.530 37	0.220 60	0.278 44	0.567 53	0.083 34	0.330 58	0.299 30	0.270 41	0.310 50	0.143 57	0.260 57	0.624 45	0.277 40	0.568 44	0.361 48	0.865 39	0.301 36

AOIA	0.387 48	0.704 39	0.515 42	0.385 41	0.225 55	0.669 33	0.005 65	0.482 38	0.126 51	0.181 60	0.269 56	0.221 48	0.426 43	0.478 57	0.218 49	0.592 36	0.371 46	0.851 41	0.242 51

SSEN	0.384 49	0.852 17	0.494 49	0.192 61	0.226 54	0.648 40	0.022 53	0.398 49	0.299 31	0.277 39	0.317 49	0.231 47	0.194 64	0.514 54	0.196 51	0.586 39	0.444 34	0.843 48	0.184 57
Dongsu Zhang, Junha Chun, Sang Kyun Cha, Young Min Kim: Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with Deep Metric Learning. Arxiv
Mask3D_evaluation	0.382 50	0.593 56	0.520 39	0.390 40	0.314 39	0.600 49	0.018 57	0.287 65	0.151 46	0.281 37	0.387 40	0.169 55	0.429 38	0.654 43	0.172 57	0.578 40	0.384 45	0.670 64	0.278 44

PCJC	0.375 51	0.704 39	0.542 35	0.284 55	0.197 58	0.649 39	0.006 62	0.426 44	0.138 48	0.242 45	0.304 51	0.183 54	0.388 49	0.629 44	0.141 64	0.546 49	0.344 52	0.738 59	0.283 43

ClickSeg_Instance	0.366 52	0.654 50	0.375 57	0.184 62	0.302 41	0.592 51	0.050 45	0.300 61	0.093 56	0.283 36	0.277 53	0.249 43	0.426 44	0.615 46	0.299 36	0.504 54	0.367 47	0.832 51	0.191 56

SphereSeg	0.357 53	0.651 51	0.411 55	0.345 47	0.264 48	0.630 44	0.059 40	0.289 64	0.212 38	0.240 46	0.336 46	0.158 56	0.305 54	0.557 48	0.159 60	0.455 61	0.341 54	0.726 61	0.294 38

3D-MPA	0.355 54	0.457 66	0.484 50	0.299 53	0.277 45	0.591 52	0.047 46	0.332 55	0.212 39	0.217 51	0.278 52	0.193 52	0.413 46	0.410 61	0.195 52	0.574 43	0.352 50	0.849 43	0.213 54
Francis Engelmann, Martin Bokeloh, Alireza Fathi, Bastian Leibe, Matthias Nießner: 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation. CVPR 2020
NeuralBF	0.353 55	0.593 56	0.511 44	0.375 43	0.264 47	0.597 50	0.008 60	0.332 56	0.160 45	0.229 49	0.274 55	0.000 78	0.206 61	0.678 38	0.155 61	0.485 57	0.422 39	0.816 53	0.254 50
Weiwei Sun, Daniel Rebain, Renjie Liao, Vladimir Tankovich, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi: NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation on Point Clouds. WACV 2023
RWSeg	0.348 56	0.475 63	0.456 54	0.320 52	0.275 46	0.476 59	0.020 56	0.491 35	0.056 64	0.212 54	0.320 48	0.261 41	0.302 55	0.520 52	0.182 55	0.557 47	0.285 63	0.867 38	0.197 55

GICN	0.341 57	0.580 58	0.371 58	0.344 49	0.198 57	0.469 60	0.052 42	0.564 20	0.093 55	0.212 53	0.212 61	0.127 59	0.347 52	0.537 49	0.206 50	0.525 52	0.329 56	0.729 60	0.241 52

One_Thing_One_Click	0.326 58	0.472 64	0.361 59	0.232 59	0.183 59	0.555 55	0.000 71	0.498 34	0.038 66	0.195 58	0.226 60	0.362 29	0.168 65	0.469 59	0.251 45	0.553 48	0.335 55	0.846 46	0.117 66
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
Occipital-SCS	0.320 59	0.679 45	0.352 60	0.334 50	0.229 53	0.436 61	0.025 51	0.412 47	0.058 62	0.161 65	0.240 58	0.085 61	0.262 56	0.496 56	0.187 54	0.467 59	0.328 57	0.775 54	0.231 53

Sparse R-CNN	0.292 60	0.704 39	0.213 70	0.153 64	0.154 61	0.551 56	0.053 41	0.212 68	0.132 49	0.174 62	0.274 54	0.070 63	0.363 51	0.441 60	0.176 56	0.424 64	0.234 65	0.758 56	0.161 62

MTML	0.282 61	0.577 59	0.380 56	0.182 63	0.107 67	0.430 62	0.001 68	0.422 45	0.057 63	0.179 61	0.162 64	0.070 64	0.229 59	0.511 55	0.161 58	0.491 56	0.313 58	0.650 67	0.162 60
Jean Lahoud, Bernard Ghanem, Marc Pollefeys, Martin R. Oswald: 3D Instance Segmentation via Multi-task Metric Learning. ICCV 2019 [oral]
SALoss-ResNet	0.262 62	0.667 46	0.335 61	0.067 71	0.123 65	0.427 63	0.022 52	0.280 66	0.058 61	0.216 52	0.211 62	0.039 67	0.142 67	0.519 53	0.106 68	0.338 68	0.310 60	0.721 62	0.138 63
Zhidong Liang, Ming Yang, Hao Li, Chunxiang Wang: 3D Instance Embedding Learning With a Structure-Aware Loss Function for Point Cloud Segmentation. IEEE Robotics and Automation Letters (IROS2020)
MASC	0.254 63	0.463 65	0.249 69	0.113 65	0.167 60	0.412 65	0.000 70	0.374 53	0.073 58	0.173 63	0.243 57	0.130 58	0.228 60	0.368 63	0.160 59	0.356 66	0.208 66	0.711 63	0.136 64
Chen Liu, Yasutaka Furukawa: MASC: Multi-scale Affinity with Sparse Convolution for 3D Instance Segmentation.
3D-BoNet	0.253 64	0.519 61	0.324 64	0.251 57	0.137 64	0.345 70	0.031 49	0.419 46	0.069 59	0.162 64	0.131 66	0.052 65	0.202 63	0.338 65	0.147 63	0.301 71	0.303 62	0.651 66	0.178 59
Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen Wang, Andrew Markham, Niki Trigoni: Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds. NeurIPS 2019 Spotlight
SPG_WSIS	0.251 65	0.380 68	0.274 67	0.289 54	0.144 62	0.413 64	0.000 71	0.311 59	0.065 60	0.113 67	0.130 67	0.029 70	0.204 62	0.388 62	0.108 67	0.459 60	0.311 59	0.769 55	0.127 65

SegGroup_ins	0.246 66	0.556 60	0.335 62	0.062 73	0.115 66	0.490 58	0.000 71	0.297 63	0.018 70	0.186 59	0.142 65	0.083 62	0.233 58	0.216 69	0.153 62	0.469 58	0.251 64	0.744 58	0.083 69
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
PanopticFusion-inst	0.214 67	0.250 73	0.330 63	0.275 56	0.103 68	0.228 76	0.000 71	0.345 54	0.024 68	0.088 69	0.203 63	0.186 53	0.167 66	0.367 64	0.125 65	0.221 74	0.112 76	0.666 65	0.162 61
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
UNet-backbone	0.161 68	0.519 61	0.259 68	0.084 67	0.059 70	0.325 72	0.002 66	0.093 73	0.009 72	0.077 71	0.064 70	0.045 66	0.044 74	0.161 71	0.045 70	0.331 69	0.180 68	0.566 68	0.033 78

3D-SIS	0.161 68	0.407 67	0.155 75	0.068 70	0.043 74	0.346 69	0.001 67	0.134 70	0.005 73	0.088 68	0.106 69	0.037 68	0.135 69	0.321 66	0.028 74	0.339 67	0.116 75	0.466 71	0.093 68
Ji Hou, Angela Dai, Matthias Niessner: 3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. CVPR 2019
R-PointNet	0.158 70	0.356 69	0.173 73	0.113 66	0.140 63	0.359 66	0.012 59	0.023 76	0.039 65	0.134 66	0.123 68	0.008 74	0.089 70	0.149 72	0.117 66	0.221 73	0.128 73	0.563 69	0.094 67

Region-18class	0.146 71	0.175 77	0.321 65	0.080 68	0.062 69	0.357 67	0.000 71	0.307 60	0.002 75	0.066 72	0.044 72	0.000 78	0.018 76	0.036 77	0.054 69	0.447 63	0.133 71	0.472 70	0.060 73

SemRegionNet-20cls	0.121 72	0.296 71	0.203 71	0.071 69	0.058 71	0.349 68	0.000 71	0.150 69	0.019 69	0.054 74	0.034 75	0.017 73	0.052 72	0.042 76	0.013 77	0.209 75	0.183 67	0.371 72	0.057 74

3D-BEVIS	0.117 73	0.250 73	0.308 66	0.020 77	0.009 79	0.269 75	0.006 63	0.008 77	0.029 67	0.037 77	0.014 78	0.003 76	0.036 75	0.147 73	0.042 72	0.381 65	0.118 74	0.362 73	0.069 72
Cathrin Elich, Francis Engelmann, Jonas Schult, Theodora Kontogianni, Bastian Leibe: 3D-BEVIS: Birds-Eye-View Instance Segmentation.
Hier3D	0.117 73	0.222 75	0.161 74	0.054 75	0.027 76	0.289 73	0.000 71	0.124 71	0.001 77	0.079 70	0.061 71	0.027 71	0.141 68	0.240 68	0.005 78	0.310 70	0.129 72	0.153 78	0.081 70
Tan: HCFS3D: Hierarchical Coupled Feature Selection Network for 3D Semantic and Instance Segmentation.
tmp	0.113 75	0.333 70	0.151 76	0.056 74	0.053 72	0.344 71	0.000 71	0.105 72	0.016 71	0.049 75	0.035 74	0.020 72	0.053 71	0.048 75	0.013 76	0.183 77	0.173 69	0.344 75	0.054 75

Sem_Recon_ins	0.098 76	0.295 72	0.187 72	0.015 78	0.036 75	0.213 77	0.005 64	0.038 75	0.003 74	0.056 73	0.037 73	0.036 69	0.015 77	0.051 74	0.044 71	0.209 76	0.098 77	0.354 74	0.071 71

ASIS	0.085 77	0.037 78	0.080 78	0.066 72	0.047 73	0.282 74	0.000 71	0.052 74	0.002 76	0.047 76	0.026 76	0.001 77	0.046 73	0.194 70	0.031 73	0.264 72	0.140 70	0.167 77	0.047 77

Sgpn_scannet	0.049 78	0.023 79	0.134 77	0.031 76	0.013 78	0.144 78	0.006 61	0.008 78	0.000 78	0.028 78	0.017 77	0.003 75	0.009 79	0.000 78	0.021 75	0.122 78	0.095 78	0.175 76	0.054 76

MaskRCNN 2d->3d Proj	0.022 79	0.185 76	0.000 79	0.000 79	0.015 77	0.000 79	0.000 69	0.006 79	0.000 78	0.010 79	0.006 79	0.107 60	0.012 78	0.000 78	0.002 79	0.027 79	0.004 79	0.022 79	0.001 79

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

Virtual MVFusion (R)	0.745 1	0.861 1	0.839 1	0.881 1	0.672 2	0.512 1	0.422 19	0.898 1	0.723 1	0.714 1	0.954 2	0.454 1	0.509 1	0.773 1	0.895 1	0.756 1	0.820 1	0.653 1	0.935 1	0.891 1	0.728 1
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
BPNet_2D	0.670 2	0.822 3	0.795 3	0.836 2	0.659 3	0.481 2	0.451 15	0.769 5	0.656 3	0.567 4	0.931 3	0.395 6	0.390 6	0.700 4	0.534 4	0.689 11	0.770 2	0.574 3	0.865 11	0.831 3	0.675 6
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia and Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MVF-GNN（2D）	0.636 3	0.606 16	0.794 4	0.434 17	0.688 1	0.337 8	0.464 14	0.798 4	0.632 5	0.589 3	0.908 9	0.420 2	0.329 14	0.743 2	0.594 2	0.738 2	0.676 5	0.527 4	0.906 2	0.818 6	0.715 3

CU-Hybrid-2D Net	0.636 3	0.825 2	0.820 2	0.179 25	0.648 4	0.463 3	0.549 2	0.742 9	0.676 2	0.628 2	0.961 1	0.420 2	0.379 7	0.684 8	0.381 20	0.732 3	0.723 3	0.599 2	0.827 18	0.851 2	0.634 9

DVEFormer	0.626 5	0.616 12	0.764 6	0.690 5	0.583 11	0.322 14	0.540 3	0.809 3	0.593 7	0.502 12	0.900 14	0.374 9	0.433 3	0.660 9	0.528 5	0.665 19	0.663 6	0.491 9	0.871 10	0.810 9	0.705 4

CMX	0.613 6	0.681 9	0.725 13	0.502 13	0.634 6	0.297 19	0.478 12	0.830 2	0.651 4	0.537 7	0.924 4	0.375 7	0.315 16	0.686 7	0.451 15	0.714 5	0.543 23	0.504 6	0.894 7	0.823 5	0.688 5

DMMF_3d	0.605 7	0.651 10	0.744 11	0.782 3	0.637 5	0.387 4	0.536 5	0.732 10	0.590 8	0.540 6	0.856 23	0.359 12	0.306 17	0.596 16	0.539 3	0.627 22	0.706 4	0.497 8	0.785 23	0.757 21	0.476 24

EMSANet	0.600 8	0.716 4	0.746 10	0.395 20	0.614 9	0.382 5	0.523 6	0.713 13	0.571 12	0.503 10	0.922 7	0.404 5	0.397 5	0.655 10	0.400 17	0.626 23	0.663 6	0.469 14	0.900 4	0.827 4	0.577 16
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
MCA-Net	0.595 9	0.533 22	0.756 9	0.746 4	0.590 10	0.334 10	0.506 9	0.670 17	0.587 9	0.500 13	0.905 11	0.366 11	0.352 10	0.601 15	0.506 9	0.669 17	0.648 10	0.501 7	0.839 17	0.769 17	0.516 23

RFBNet	0.592 10	0.616 12	0.758 8	0.659 6	0.581 12	0.330 11	0.469 13	0.655 20	0.543 15	0.524 8	0.924 4	0.355 14	0.336 12	0.572 19	0.479 11	0.671 15	0.648 10	0.480 11	0.814 21	0.814 7	0.614 12

FAN_NV_RVC	0.586 11	0.510 23	0.764 6	0.079 28	0.620 8	0.330 11	0.494 10	0.753 7	0.573 10	0.556 5	0.884 18	0.405 4	0.303 18	0.718 3	0.452 14	0.672 14	0.658 8	0.509 5	0.898 5	0.813 8	0.727 2

WSGFormer	0.585 12	0.706 5	0.708 18	0.434 17	0.574 14	0.283 22	0.538 4	0.759 6	0.542 17	0.482 17	0.924 4	0.351 16	0.333 13	0.614 12	0.393 18	0.692 10	0.551 22	0.461 15	0.874 9	0.809 10	0.673 7

DCRedNet	0.583 13	0.682 8	0.723 14	0.542 12	0.510 22	0.310 16	0.451 15	0.668 18	0.549 14	0.520 9	0.920 8	0.375 7	0.446 2	0.528 22	0.417 16	0.670 16	0.577 19	0.478 12	0.862 12	0.806 11	0.628 11

MIX6D_RVC	0.582 14	0.695 6	0.687 19	0.225 23	0.632 7	0.328 13	0.550 1	0.748 8	0.623 6	0.494 16	0.890 16	0.350 17	0.254 25	0.688 6	0.454 13	0.716 4	0.597 18	0.489 10	0.881 8	0.768 18	0.575 17

SSMA	0.577 15	0.695 6	0.716 16	0.439 15	0.563 16	0.314 15	0.444 17	0.719 11	0.551 13	0.503 10	0.887 17	0.346 18	0.348 11	0.603 14	0.353 22	0.709 6	0.600 16	0.457 16	0.901 3	0.786 13	0.599 15
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
DMMF	0.567 16	0.623 11	0.767 5	0.238 22	0.571 15	0.347 6	0.413 21	0.719 11	0.472 22	0.418 24	0.895 15	0.357 13	0.260 24	0.696 5	0.523 8	0.666 18	0.642 12	0.437 20	0.895 6	0.793 12	0.603 14

UNIV_CNP_RVC_UE	0.566 17	0.569 21	0.686 21	0.435 16	0.524 19	0.294 20	0.421 20	0.712 14	0.543 15	0.463 19	0.872 19	0.320 19	0.363 9	0.611 13	0.477 12	0.686 12	0.627 13	0.443 19	0.862 12	0.775 16	0.639 8

EMSAFormer	0.564 18	0.581 18	0.736 12	0.564 11	0.546 18	0.219 25	0.517 7	0.675 16	0.486 21	0.427 23	0.904 12	0.352 15	0.320 15	0.589 17	0.528 5	0.708 7	0.464 26	0.413 24	0.847 16	0.786 13	0.611 13

SN_RN152pyrx8_RVC	0.546 19	0.572 19	0.663 23	0.638 8	0.518 20	0.298 18	0.366 26	0.633 23	0.510 19	0.446 21	0.864 21	0.296 22	0.267 21	0.542 21	0.346 23	0.704 8	0.575 20	0.431 21	0.853 15	0.766 19	0.630 10

UDSSEG_RVC	0.545 20	0.610 15	0.661 24	0.588 9	0.556 17	0.268 23	0.482 11	0.642 22	0.572 11	0.475 18	0.836 25	0.312 20	0.367 8	0.630 11	0.189 25	0.639 21	0.495 25	0.452 17	0.826 19	0.756 22	0.541 19

segfomer with 6d	0.542 21	0.594 17	0.687 19	0.146 26	0.579 13	0.308 17	0.515 8	0.703 15	0.472 22	0.498 14	0.868 20	0.369 10	0.282 19	0.589 17	0.390 19	0.701 9	0.556 21	0.416 23	0.860 14	0.759 20	0.539 21

FuseNet	0.535 22	0.570 20	0.681 22	0.182 24	0.512 21	0.290 21	0.431 18	0.659 19	0.504 20	0.495 15	0.903 13	0.308 21	0.428 4	0.523 23	0.365 21	0.676 13	0.621 15	0.470 13	0.762 24	0.779 15	0.541 19
Caner Hazirbas, Lingni Ma, Csaba Domokos, Daniel Cremers: FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. ACCV 2016
AdapNet++	0.503 23	0.613 14	0.722 15	0.418 19	0.358 28	0.337 8	0.370 25	0.479 26	0.443 24	0.368 26	0.907 10	0.207 25	0.213 27	0.464 26	0.525 7	0.618 24	0.657 9	0.450 18	0.788 22	0.721 25	0.408 27
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
3DMV (2d proj)	0.498 24	0.481 26	0.612 25	0.579 10	0.456 24	0.343 7	0.384 23	0.623 24	0.525 18	0.381 25	0.845 24	0.254 24	0.264 23	0.557 20	0.182 26	0.581 26	0.598 17	0.429 22	0.760 25	0.661 27	0.446 26
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
MSeg1080_RVC	0.485 25	0.505 24	0.709 17	0.092 27	0.427 25	0.241 24	0.411 22	0.654 21	0.385 28	0.457 20	0.861 22	0.053 28	0.279 20	0.503 24	0.481 10	0.645 20	0.626 14	0.365 26	0.748 26	0.725 24	0.529 22
John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun: MSeg: A Composite Dataset for Multi-domain Semantic Segmentation. CVPR 2020
ILC-PSPNet	0.475 26	0.490 25	0.581 26	0.289 21	0.507 23	0.067 28	0.379 24	0.610 25	0.417 26	0.435 22	0.822 27	0.278 23	0.267 21	0.503 24	0.228 24	0.616 25	0.533 24	0.375 25	0.820 20	0.729 23	0.560 18

Enet (reimpl)	0.376 27	0.264 28	0.452 28	0.452 14	0.365 26	0.181 26	0.143 28	0.456 27	0.409 27	0.346 27	0.769 28	0.164 26	0.218 26	0.359 27	0.123 28	0.403 28	0.381 28	0.313 28	0.571 27	0.685 26	0.472 25
Re-implementation of Adam Paszke, Abhishek Chaurasia, Sangpil Kim, Eugenio Culurciello: ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation.
ScanNet (2d proj)	0.330 28	0.293 27	0.521 27	0.657 7	0.361 27	0.161 27	0.250 27	0.004 28	0.440 25	0.183 28	0.836 25	0.125 27	0.060 28	0.319 28	0.132 27	0.417 27	0.412 27	0.344 27	0.541 28	0.427 28	0.109 28
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

EMSANet (Instance)	0.241 1	0.401 1	0.439 1	0.085 1	0.242 1	0.220 1	0.081 1	0.289 2	0.117 2	0.121 1	0.182 1	0.126 1	0.346 1	0.181 2	0.181 2	0.358 1	0.156 1	0.675 2	0.131 1
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
UniDet_RVC	0.205 2	0.381 2	0.323 3	0.037 3	0.226 3	0.177 3	0.063 2	0.277 3	0.120 1	0.067 3	0.131 3	0.074 3	0.317 2	0.080 3	0.235 1	0.289 3	0.141 3	0.678 1	0.080 3

FKNet	0.204 3	0.334 3	0.358 2	0.038 2	0.234 2	0.184 2	0.025 3	0.318 1	0.042 4	0.088 2	0.141 2	0.053 4	0.300 3	0.207 1	0.171 3	0.292 2	0.149 2	0.636 3	0.109 2

MaskRCNN_ScanNet	0.119 4	0.129 4	0.212 4	0.002 4	0.112 4	0.148 4	0.014 4	0.205 4	0.044 3	0.066 4	0.078 4	0.095 2	0.142 4	0.030 4	0.128 4	0.139 4	0.080 4	0.459 4	0.057 4
Re-implementation of Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick: Mask R-CNN. ICCV'17

Presenting the ScanNet200 Benchmark

ScanNet200 Benchmark

ScanNet200 3D Semantic Label Benchmark

ScanNet200 3D Semantic Instance Benchmark

ScanNet Benchmark

3D Semantic Label Benchmark

3D Semantic Instance Benchmark

2D Semantic Label Benchmark

2D Semantic Instance Benchmark

Scene Type Classification Benchmark

Method	avg recall	apartment	bathroom	bedroom / hotel	bookstore / library	conference room	copy/mail room	hallway	kitchen	laundry room	living room / lounge	misc	office	storage / basement / garage

LAST-PCL-type	0.780 1	0.250 3	1.000 1	1.000 1	1.000 1	1.000 1	1.000 1	0.500 2	1.000 1	0.500 2	0.889 1	0.000 2	1.000 1	1.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang: Language-Assisted 3D Scene Understanding. arxiv23.12
multi-task	0.700 2	0.500 1	1.000 1	0.882 3	0.500 3	1.000 1	1.000 1	0.500 2	1.000 1	1.000 1	0.778 2	0.000 2	0.938 2	0.000 3
Shengyu Huang, Mikhail Usvyatsov, Konrad Schindler: Indoor Scene Recognition in 3D. IROS 2020
3DASPP-SCE	0.691 3	0.500 1	0.938 3	0.824 4	1.000 1	1.000 1	0.500 3	1.000 1	0.857 3	0.500 2	0.556 4	0.000 2	0.812 3	0.500 2

SE-ResNeXt-SSMA	0.498 4	0.000 5	0.812 4	0.941 2	0.500 3	0.500 4	0.500 3	0.500 2	0.429 5	0.500 2	0.667 3	0.500 1	0.625 4	0.000 3
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. arXiv
resnet50_scannet	0.353 5	0.250 3	0.812 4	0.529 5	0.500 3	0.500 4	0.000 5	0.500 2	0.571 4	0.000 5	0.556 4	0.000 2	0.375 5	0.000 3