Benchmark Results - ScanNet Benchmark

This table lists the benchmark results for the ScanNet200 3D semantic label scenario.

Method	avg iou	head iou	common iou	tail iou	backpack	bag	ball	bar	basket	bathroom cabinet	bathroom stall	bathroom stall door	bathroom vanity	bathtub	bed	bench	bicycle	bin	blackboard	blanket	blinds	board	book	bookshelf	bottle	bowl	box	broom	bucket	bulletin board	cabinet	calendar	candle	cart	case of water bottles	ceiling	ceiling light	chair	clock	closet	closet rod	clothes	clothes dryer	coat rack	coffee kettle	coffee maker	coffee table	column	computer tower	copier	couch	counter	cup	curtain	cushion	decoration	desk	dining table	dish rack	dishwasher	door	doorframe	dresser	dumbbell	end table	fan	file cabinet	fire alarm	fire extinguisher	floor	folded chair	hat	headphones	ironing board	jacket	keyboard	keyboard piano	kitchen cabinet	kitchen counter	ladder	lamp	laptop	laundry basket	laundry detergent	laundry hamper	ledge	light	light switch	machine	mailbox	mat	microwave	mini fridge	mirror	monitor	mouse	music stand	nightstand	object	office chair	oven	paper	paper bag	paper cutter	paper towel dispenser	paper towel roll	person	piano	picture	pillow	pipe	plant	plate	plunger	poster	power outlet	power strip	printer	projector	projector screen	rack	radiator	range hood	recycling bin	refrigerator	scale	seat	shelf	shoe	shower	shower curtain	shower curtain rod	shower floor	shower head	shower wall	sign	sink	soap dispenser	sofa chair	speaker	stair rail	stairs	stand	stool	storage bin	storage container	storage organizer	stove	structure	stuffed animal	suitcase	table	telephone	tissue box	toaster	toilet	toilet paper	toilet paper dispenser	towel	trash bin	trash can	tray	tube	tv	tv stand	vacuum cleaner	vent	wall	wardrobe	washing machine	water bottle	water cooler	water pitcher	whiteboard	window	windowsill

ALS-MinkowskiNet	0.414 2	0.610 2	0.322 3	0.271 2	0.542 2	0.153 3	0.159 11	0.000 3	0.000 7	0.000 1	0.404 4	0.503 5	0.532 6	0.672 16	0.804 5	0.285 1	0.888 2	0.000 3	0.900 2	0.226 2	0.087 2	0.598 4	0.342 5	0.671 1	0.217 10	0.087 3	0.449 4	0.000 1	0.000 3	0.253 3	0.477 6	1.000 1	0.000 1	0.118 5	0.000 3	0.905 1	0.071 13	0.710 2	0.076 2	0.047 16	0.665 1	0.376 8	0.981 1	0.000 1	0.000 2	0.466 7	0.632 7	0.113 4	0.769 1	0.956 4	0.795 2	0.031 9	0.314 1	0.936 1	0.000 1	0.390 2	0.601 3	0.000 7	0.458 8	0.366 2	0.719 3	0.440 5	0.564 1	0.699 4	0.314 1	0.464 7	0.784 2	0.200 1	0.283 6	0.973 1	0.142 9	0.000 1	0.250 7	0.285 6	0.220 7	0.718 1	0.752 6	0.723 2	0.460 1	0.248 15	0.475 10	0.463 13	0.000 4	0.000 1	0.446 8	0.021 5	0.025 11	0.285 1	0.000 4	0.972 1	0.149 8	0.769 1	0.230 3	0.535 1	0.879 2	0.252 8	0.000 1	0.693 1	0.129 2	0.000 14	0.000 4	0.000 1	0.447 1	0.958 1	0.662 9	0.159 2	0.598 3	0.780 11	0.344 2	0.646 3	0.106 6	0.893 3	0.135 3	0.455 3	0.000 1	0.194 3	0.259 1	0.726 3	0.475 4	0.000 9	0.000 1	0.741 1	0.865 1	0.571 2	0.817 3	0.445 3	0.000 1	0.506 2	0.630 3	0.230 12	0.916 2	0.728 1	0.635 1	1.000 1	0.252 6	0.000 1	0.804 2	0.697 7	0.137 11	0.043 7	0.717 2	0.807 3	0.000 1	0.510 13	0.245 2	0.000 7	0.000 1	0.709 3	0.000 2	0.000 1	0.703 2	0.572 4	0.646 2	0.223 10	0.531 5	0.984 1	0.397 3	0.813 1	0.798 1	0.135 12	0.800 1	0.000 1	0.097 2	0.832 2	0.752 8	0.842 7	0.000 1	0.852 1	0.149 9	0.846 10	0.000 1	0.666 5	0.359 5	0.252 8	0.777 1	0.690 2
Guangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum: ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding. CVPR 2025
DITR	0.449 1	0.629 1	0.392 1	0.289 1	0.650 1	0.168 2	0.862 1	0.000 3	0.313 3	0.000 1	0.580 1	0.568 2	0.564 3	0.766 7	0.867 1	0.238 5	0.949 1	0.000 3	0.866 3	0.300 1	0.000 9	0.664 1	0.482 1	0.508 12	0.317 1	0.420 1	0.551 2	0.000 1	0.000 3	0.486 2	0.519 1	0.662 4	0.000 1	0.385 1	0.000 3	0.901 3	0.079 9	0.727 1	0.000 7	0.160 3	0.606 3	0.417 4	0.967 2	0.000 1	0.000 2	0.498 5	0.596 11	0.130 2	0.728 3	0.998 1	0.805 1	0.000 17	0.314 1	0.934 2	0.000 1	0.278 4	0.636 1	0.000 7	0.403 12	0.367 1	0.741 2	0.484 1	0.500 2	1.000 1	0.113 12	0.828 1	0.815 1	0.000 7	0.733 2	0.969 4	0.374 2	0.000 1	0.579 1	1.000 1	0.230 5	0.617 5	0.983 1	0.729 1	0.423 4	0.855 1	0.508 6	0.622 2	0.018 3	0.000 1	0.591 3	0.034 4	0.028 10	0.066 11	0.869 1	0.904 7	0.334 2	0.651 5	0.716 1	0.514 2	0.871 6	0.315 3	0.000 1	0.664 3	0.128 3	0.014 10	0.000 4	0.000 1	0.392 2	0.851 2	0.817 1	0.153 3	0.823 1	0.991 1	0.318 3	0.680 1	0.134 3	0.913 1	0.157 2	0.448 4	0.000 1	0.000 8	0.000 3	0.826 1	0.978 1	0.091 6	0.000 1	0.660 4	0.647 3	0.571 2	0.804 4	0.001 9	0.000 1	0.480 3	0.700 1	0.421 5	0.947 1	0.433 14	0.411 3	0.148 6	0.262 5	0.000 1	0.849 1	0.709 6	0.138 10	0.150 2	0.714 3	0.889 1	0.000 1	0.698 1	0.222 4	0.000 7	0.000 1	0.720 2	0.000 2	0.000 1	0.805 1	0.600 1	0.642 3	0.268 9	0.904 1	0.982 2	0.477 1	0.632 6	0.718 2	0.139 9	0.776 2	0.000 1	0.178 1	0.886 1	0.962 1	0.839 8	0.000 1	0.851 2	0.043 12	0.869 4	0.000 1	0.710 1	0.315 6	0.348 3	0.753 2	0.397 8
Karim Abou Zeid, Kadir Yilmaz, Daan de Geus, Alexander Hermans, David Adrian, Timm Linder, Bastian Leibe: DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation.
PTv3 ScanNet200	0.393 3	0.592 3	0.330 2	0.216 3	0.520 3	0.109 5	0.108 16	0.000 3	0.337 1	0.000 1	0.310 12	0.394 9	0.494 11	0.753 9	0.848 2	0.256 3	0.717 8	0.000 3	0.842 4	0.192 5	0.065 3	0.449 10	0.346 4	0.546 6	0.190 13	0.000 9	0.384 7	0.000 1	0.000 3	0.218 4	0.505 2	0.791 3	0.000 1	0.136 4	0.000 3	0.903 2	0.073 12	0.687 6	0.000 7	0.168 2	0.551 5	0.387 7	0.941 3	0.000 1	0.000 2	0.397 12	0.654 3	0.000 10	0.714 5	0.759 15	0.752 7	0.118 4	0.264 4	0.926 3	0.000 1	0.048 6	0.575 5	0.000 7	0.597 2	0.366 2	0.755 1	0.469 2	0.474 3	0.798 2	0.140 10	0.617 3	0.692 7	0.000 7	0.592 4	0.971 2	0.188 4	0.000 1	0.133 9	0.593 2	0.349 1	0.650 3	0.717 8	0.699 3	0.455 2	0.790 2	0.523 4	0.636 1	0.301 1	0.000 1	0.622 2	0.000 11	0.017 15	0.259 3	0.000 4	0.921 3	0.337 1	0.733 2	0.210 4	0.514 2	0.860 8	0.407 1	0.000 1	0.688 2	0.109 8	0.000 14	0.000 4	0.000 1	0.151 5	0.671 8	0.782 2	0.115 13	0.641 2	0.903 2	0.349 1	0.616 4	0.088 7	0.832 8	0.000 6	0.480 2	0.000 1	0.428 1	0.000 3	0.497 10	0.000 5	0.000 9	0.000 1	0.662 3	0.690 2	0.612 1	0.828 1	0.575 1	0.000 1	0.404 7	0.644 2	0.325 7	0.887 4	0.728 1	0.009 16	0.134 7	0.026 17	0.000 1	0.761 3	0.731 4	0.172 6	0.077 4	0.528 8	0.727 7	0.000 1	0.603 5	0.220 5	0.022 3	0.000 1	0.740 1	0.000 2	0.000 1	0.661 4	0.586 2	0.566 4	0.436 4	0.531 5	0.978 3	0.457 2	0.708 3	0.583 6	0.141 7	0.748 3	0.000 1	0.026 5	0.822 3	0.871 4	0.879 5	0.000 1	0.851 2	0.405 2	0.914 1	0.000 1	0.682 3	0.000 15	0.281 4	0.738 3	0.463 6
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
BFANet ScanNet200	0.360 5	0.553 7	0.293 5	0.193 5	0.483 10	0.096 6	0.266 6	0.000 3	0.000 7	0.000 1	0.298 13	0.255 12	0.661 1	0.810 5	0.810 3	0.194 10	0.785 7	0.000 3	0.000 17	0.161 6	0.000 9	0.494 9	0.382 3	0.574 3	0.258 5	0.000 9	0.372 9	0.000 1	0.000 3	0.043 14	0.436 8	0.000 11	0.000 1	0.239 3	0.000 3	0.901 3	0.105 1	0.689 4	0.025 4	0.128 4	0.614 2	0.436 1	0.493 17	0.000 1	0.000 2	0.526 4	0.546 13	0.109 5	0.651 14	0.953 5	0.753 6	0.101 5	0.143 13	0.897 5	0.000 1	0.431 1	0.469 15	0.000 7	0.522 6	0.337 5	0.661 6	0.459 3	0.409 6	0.666 5	0.102 14	0.508 6	0.757 4	0.000 7	0.060 14	0.970 3	0.497 1	0.000 1	0.376 3	0.511 3	0.262 4	0.688 2	0.921 2	0.617 10	0.321 12	0.590 6	0.491 9	0.556 4	0.000 4	0.000 1	0.481 5	0.093 1	0.043 3	0.284 2	0.000 4	0.875 14	0.135 9	0.669 4	0.124 13	0.394 6	0.849 11	0.298 4	0.000 1	0.476 17	0.088 13	0.042 7	0.000 4	0.000 1	0.254 4	0.653 10	0.741 6	0.215 1	0.573 5	0.852 5	0.266 10	0.654 2	0.056 12	0.835 6	0.000 6	0.492 1	0.000 1	0.000 8	0.000 3	0.612 9	0.000 5	0.000 9	0.000 1	0.616 6	0.469 17	0.460 5	0.698 14	0.516 2	0.000 1	0.378 8	0.563 4	0.476 4	0.863 5	0.574 9	0.330 6	0.000 11	0.282 3	0.000 1	0.760 4	0.710 5	0.233 1	0.000 10	0.641 5	0.814 2	0.000 1	0.585 10	0.053 11	0.000 7	0.000 1	0.629 10	0.000 2	0.000 1	0.678 3	0.528 13	0.534 5	0.129 14	0.596 4	0.973 4	0.264 12	0.772 2	0.526 10	0.139 9	0.707 4	0.000 1	0.000 12	0.764 14	0.591 16	0.848 6	0.000 1	0.827 4	0.338 3	0.806 12	0.000 1	0.568 9	0.151 10	0.358 2	0.659 10	0.510 4
Weiguang Zhao, Rui Zhang, Qiufeng Wang, Guangliang Cheng, Kaizhu Huang: BFANet: Revisiting 3D Semantic Segmentation with Boundary Feature Analysis. CVPR 2025
PonderV2 ScanNet200	0.346 6	0.552 8	0.270 8	0.175 9	0.497 7	0.070 12	0.239 7	0.000 3	0.000 7	0.000 1	0.232 17	0.412 8	0.584 2	0.842 3	0.804 5	0.212 7	0.540 10	0.000 3	0.433 16	0.106 10	0.000 9	0.590 5	0.290 12	0.548 5	0.243 7	0.000 9	0.356 11	0.000 1	0.000 3	0.062 10	0.398 13	0.441 10	0.000 1	0.104 10	0.000 3	0.888 5	0.076 11	0.682 9	0.030 3	0.094 7	0.491 11	0.351 12	0.869 10	0.000 1	0.063 1	0.403 11	0.700 2	0.000 10	0.660 13	0.881 9	0.761 3	0.050 8	0.186 10	0.852 13	0.000 1	0.007 9	0.570 8	0.100 2	0.565 3	0.326 6	0.641 10	0.431 6	0.290 14	0.621 6	0.259 3	0.408 11	0.622 10	0.125 2	0.082 12	0.950 5	0.179 5	0.000 1	0.263 6	0.424 5	0.193 9	0.558 7	0.880 4	0.545 13	0.375 7	0.727 3	0.445 12	0.499 8	0.000 4	0.000 1	0.475 7	0.002 9	0.034 6	0.083 8	0.000 4	0.924 2	0.290 4	0.636 6	0.115 14	0.400 5	0.874 4	0.186 10	0.000 1	0.611 8	0.128 3	0.113 2	0.000 4	0.000 1	0.000 11	0.584 12	0.636 10	0.103 14	0.385 10	0.843 6	0.283 4	0.603 6	0.080 8	0.825 10	0.000 6	0.377 10	0.000 1	0.000 8	0.000 3	0.457 11	0.000 5	0.000 9	0.000 1	0.574 12	0.608 9	0.481 4	0.792 5	0.394 5	0.000 1	0.357 10	0.503 11	0.261 10	0.817 13	0.504 12	0.304 7	0.472 4	0.115 11	0.000 1	0.750 7	0.677 9	0.202 2	0.000 10	0.509 9	0.729 6	0.000 1	0.519 12	0.000 14	0.000 7	0.000 1	0.620 12	0.000 2	0.000 1	0.660 6	0.560 7	0.486 6	0.384 6	0.346 10	0.952 5	0.247 14	0.667 4	0.436 12	0.269 3	0.691 6	0.000 1	0.010 7	0.787 10	0.889 3	0.880 4	0.000 1	0.810 7	0.336 4	0.860 8	0.000 1	0.606 8	0.009 11	0.248 9	0.681 7	0.392 9
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
OA-CNN-L_ScanNet200	0.333 11	0.558 5	0.269 9	0.124 13	0.448 14	0.080 9	0.272 5	0.000 3	0.000 7	0.000 1	0.342 8	0.515 4	0.524 7	0.713 13	0.789 9	0.158 12	0.384 12	0.000 3	0.806 6	0.125 7	0.000 9	0.496 8	0.332 7	0.498 14	0.227 8	0.024 6	0.474 3	0.000 1	0.003 2	0.071 9	0.487 3	0.000 11	0.000 1	0.110 8	0.000 3	0.876 7	0.013 17	0.703 3	0.000 7	0.076 9	0.473 12	0.355 11	0.906 6	0.000 1	0.000 2	0.476 6	0.706 1	0.000 10	0.672 10	0.835 13	0.748 9	0.015 13	0.223 7	0.860 11	0.000 1	0.000 11	0.572 7	0.000 7	0.509 7	0.313 7	0.662 4	0.398 13	0.396 8	0.411 13	0.276 2	0.527 4	0.711 5	0.000 7	0.076 13	0.946 6	0.166 6	0.000 1	0.022 10	0.160 7	0.183 13	0.493 13	0.699 9	0.637 6	0.403 6	0.330 12	0.406 13	0.526 6	0.024 2	0.000 1	0.392 11	0.000 11	0.016 16	0.000 12	0.196 3	0.915 5	0.112 12	0.557 10	0.197 6	0.352 10	0.877 3	0.000 12	0.000 1	0.592 12	0.103 11	0.000 14	0.067 1	0.000 1	0.089 7	0.735 7	0.625 11	0.130 9	0.568 6	0.836 7	0.271 8	0.534 9	0.043 13	0.799 11	0.001 5	0.445 5	0.000 1	0.000 8	0.024 2	0.661 4	0.000 5	0.262 3	0.000 1	0.591 8	0.517 13	0.373 8	0.788 7	0.021 8	0.000 1	0.455 4	0.517 9	0.320 8	0.823 12	0.200 16	0.001 17	0.150 5	0.100 12	0.000 1	0.736 9	0.668 10	0.103 14	0.052 6	0.662 4	0.720 8	0.000 1	0.602 6	0.112 7	0.002 6	0.000 1	0.637 9	0.000 2	0.000 1	0.621 10	0.569 5	0.398 9	0.412 5	0.234 12	0.949 6	0.363 5	0.492 14	0.495 11	0.251 4	0.665 9	0.000 1	0.001 11	0.805 7	0.833 6	0.794 11	0.000 1	0.821 5	0.314 5	0.843 11	0.000 1	0.560 10	0.245 7	0.262 6	0.713 4	0.370 11

GSTran	0.334 10	0.533 12	0.250 12	0.179 8	0.487 8	0.041 16	0.139 13	0.003 1	0.273 5	0.000 1	0.273 16	0.189 16	0.465 12	0.704 14	0.794 8	0.198 8	0.831 5	0.000 3	0.712 8	0.055 16	0.063 5	0.518 6	0.306 9	0.459 16	0.217 10	0.028 4	0.282 14	0.000 1	0.000 3	0.044 12	0.405 11	0.558 8	0.000 1	0.080 12	0.000 3	0.873 9	0.020 16	0.684 7	0.000 7	0.075 12	0.496 9	0.363 9	0.651 15	0.000 1	0.000 2	0.425 9	0.648 5	0.000 10	0.669 11	0.914 6	0.741 10	0.009 15	0.200 9	0.864 9	0.000 1	0.000 11	0.560 9	0.000 7	0.357 14	0.233 12	0.633 11	0.408 11	0.411 4	0.320 16	0.242 5	0.440 9	0.598 14	0.047 4	0.205 8	0.940 10	0.139 11	0.000 1	0.372 4	0.138 9	0.191 10	0.495 11	0.618 13	0.624 9	0.321 12	0.595 4	0.496 7	0.499 8	0.000 4	0.000 1	0.340 12	0.014 6	0.032 7	0.136 4	0.000 4	0.903 8	0.279 5	0.601 9	0.198 5	0.345 11	0.849 11	0.260 6	0.000 1	0.573 14	0.072 17	0.060 5	0.000 4	0.000 1	0.089 7	0.838 4	0.775 4	0.125 11	0.381 11	0.752 13	0.274 5	0.517 13	0.032 15	0.841 5	0.000 6	0.354 14	0.000 1	0.047 6	0.000 3	0.439 13	0.787 3	0.252 4	0.000 1	0.512 16	0.507 16	0.158 16	0.717 12	0.000 10	0.000 1	0.337 12	0.483 13	0.570 1	0.853 8	0.614 7	0.121 11	0.070 9	0.229 7	0.000 1	0.732 11	0.773 2	0.193 3	0.000 10	0.606 7	0.791 5	0.000 1	0.593 9	0.000 14	0.010 5	0.000 1	0.574 16	0.000 2	0.000 1	0.507 12	0.554 9	0.361 11	0.136 13	0.608 3	0.948 7	0.304 8	0.593 10	0.533 8	0.011 16	0.634 12	0.000 1	0.060 3	0.821 4	0.613 13	0.797 10	0.000 1	0.799 11	0.036 13	0.782 14	0.000 1	0.609 7	0.423 3	0.133 17	0.647 12	0.213 15

IMFSegNet	0.334 9	0.532 13	0.251 11	0.179 7	0.486 9	0.041 16	0.139 13	0.003 1	0.283 4	0.000 1	0.274 15	0.191 15	0.457 14	0.704 14	0.795 7	0.197 9	0.830 6	0.000 3	0.710 9	0.055 16	0.064 4	0.518 6	0.305 10	0.458 17	0.216 12	0.027 5	0.284 13	0.000 1	0.000 3	0.044 12	0.406 10	0.561 7	0.000 1	0.080 12	0.000 3	0.873 9	0.021 15	0.683 8	0.000 7	0.076 9	0.494 10	0.363 9	0.648 16	0.000 1	0.000 2	0.425 9	0.649 4	0.000 10	0.668 12	0.908 7	0.740 11	0.010 14	0.206 8	0.862 10	0.000 1	0.000 11	0.560 9	0.000 7	0.359 13	0.237 11	0.631 12	0.408 11	0.411 4	0.322 15	0.246 4	0.439 10	0.599 13	0.047 4	0.213 7	0.940 10	0.139 11	0.000 1	0.369 5	0.124 10	0.188 12	0.495 11	0.624 11	0.626 8	0.320 14	0.595 4	0.495 8	0.496 10	0.000 4	0.000 1	0.340 12	0.014 6	0.032 7	0.135 5	0.000 4	0.903 8	0.277 6	0.612 8	0.196 7	0.344 12	0.848 13	0.260 6	0.000 1	0.574 13	0.073 16	0.062 4	0.000 4	0.000 1	0.091 6	0.839 3	0.776 3	0.123 12	0.392 9	0.756 12	0.274 5	0.518 12	0.029 16	0.842 4	0.000 6	0.357 13	0.000 1	0.035 7	0.000 3	0.444 12	0.793 2	0.245 5	0.000 1	0.512 16	0.512 15	0.159 15	0.713 13	0.000 10	0.000 1	0.336 13	0.484 12	0.569 2	0.852 9	0.615 6	0.120 12	0.068 10	0.228 8	0.000 1	0.733 10	0.773 2	0.190 4	0.000 10	0.608 6	0.792 4	0.000 1	0.597 7	0.000 14	0.025 2	0.000 1	0.573 17	0.000 2	0.000 1	0.508 11	0.555 8	0.363 10	0.139 12	0.610 2	0.947 8	0.305 7	0.594 9	0.527 9	0.009 17	0.633 13	0.000 1	0.060 3	0.820 5	0.604 15	0.799 9	0.000 1	0.799 11	0.034 14	0.784 13	0.000 1	0.618 6	0.424 2	0.134 16	0.646 13	0.214 14

CeCo	0.340 7	0.551 9	0.247 13	0.181 6	0.475 12	0.057 15	0.142 12	0.000 3	0.000 7	0.000 1	0.387 6	0.463 6	0.499 9	0.924 2	0.774 11	0.213 6	0.257 13	0.000 3	0.546 15	0.100 11	0.006 8	0.615 2	0.177 17	0.534 7	0.246 6	0.000 9	0.400 5	0.000 1	0.338 1	0.006 16	0.484 5	0.609 5	0.000 1	0.083 11	0.000 3	0.873 9	0.089 5	0.661 14	0.000 7	0.048 15	0.560 4	0.408 6	0.892 8	0.000 1	0.000 2	0.586 1	0.616 8	0.000 10	0.692 8	0.900 8	0.721 12	0.162 1	0.228 6	0.860 11	0.000 1	0.000 11	0.575 5	0.083 3	0.550 4	0.347 4	0.624 13	0.410 10	0.360 9	0.740 3	0.109 13	0.321 15	0.660 8	0.000 7	0.121 9	0.939 13	0.143 8	0.000 1	0.400 2	0.003 13	0.190 11	0.564 6	0.652 10	0.615 11	0.421 5	0.304 13	0.579 1	0.547 5	0.000 4	0.000 1	0.296 14	0.000 11	0.030 9	0.096 7	0.000 4	0.916 4	0.037 13	0.551 12	0.171 9	0.376 7	0.865 7	0.286 5	0.000 1	0.633 5	0.102 12	0.027 8	0.011 3	0.000 1	0.000 11	0.474 14	0.742 5	0.133 7	0.311 13	0.824 8	0.242 13	0.503 14	0.068 9	0.828 9	0.000 6	0.429 7	0.000 1	0.063 5	0.000 3	0.781 2	0.000 5	0.000 9	0.000 1	0.665 2	0.633 6	0.450 6	0.818 2	0.000 10	0.000 1	0.429 5	0.532 7	0.226 13	0.825 11	0.510 11	0.377 5	0.709 2	0.079 14	0.000 1	0.753 5	0.683 8	0.102 15	0.063 5	0.401 16	0.620 13	0.000 1	0.619 3	0.000 14	0.000 7	0.000 1	0.595 13	0.000 2	0.000 1	0.345 14	0.564 6	0.411 8	0.603 1	0.384 8	0.945 9	0.266 11	0.643 5	0.367 14	0.304 1	0.663 10	0.000 1	0.010 7	0.726 15	0.767 7	0.898 3	0.000 1	0.784 13	0.435 1	0.861 7	0.000 1	0.447 11	0.000 15	0.257 7	0.656 11	0.377 10
Zhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia: Understanding Imbalanced Semantic Segmentation Through Neural Collapse. CVPR 2023
OctFormer ScanNet200	0.326 13	0.539 10	0.265 10	0.131 12	0.499 6	0.110 4	0.522 3	0.000 3	0.000 7	0.000 1	0.318 11	0.427 7	0.455 15	0.743 11	0.765 13	0.175 11	0.842 4	0.000 3	0.828 5	0.204 4	0.033 6	0.429 11	0.335 6	0.601 2	0.312 3	0.000 9	0.357 10	0.000 1	0.000 3	0.047 11	0.423 9	0.000 11	0.000 1	0.105 9	0.000 3	0.873 9	0.079 9	0.670 12	0.000 7	0.117 5	0.471 13	0.432 3	0.829 11	0.000 1	0.000 2	0.584 2	0.417 17	0.089 6	0.684 9	0.837 12	0.705 16	0.021 12	0.178 11	0.892 6	0.000 1	0.028 8	0.505 13	0.000 7	0.457 9	0.200 14	0.662 4	0.412 9	0.244 15	0.496 8	0.000 17	0.451 8	0.626 9	0.000 7	0.102 11	0.943 9	0.138 13	0.000 1	0.000 12	0.149 8	0.291 3	0.534 9	0.722 7	0.632 7	0.331 10	0.253 14	0.453 11	0.487 11	0.000 4	0.000 1	0.479 6	0.000 11	0.022 13	0.000 12	0.000 4	0.900 10	0.128 11	0.684 3	0.164 10	0.413 4	0.854 10	0.000 12	0.000 1	0.512 16	0.074 15	0.003 11	0.000 4	0.000 1	0.000 11	0.469 15	0.613 12	0.132 8	0.529 7	0.871 3	0.227 16	0.582 7	0.026 17	0.787 12	0.000 6	0.339 15	0.000 1	0.000 8	0.000 3	0.626 7	0.000 5	0.029 8	0.000 1	0.587 9	0.612 8	0.411 7	0.724 10	0.000 10	0.000 1	0.407 6	0.552 5	0.513 3	0.849 10	0.655 4	0.408 4	0.000 11	0.296 2	0.000 1	0.686 15	0.645 14	0.145 8	0.022 8	0.414 14	0.633 11	0.000 1	0.637 2	0.224 3	0.000 7	0.000 1	0.650 8	0.000 2	0.000 1	0.622 9	0.535 12	0.343 12	0.483 3	0.230 13	0.943 10	0.289 10	0.618 7	0.596 5	0.140 8	0.679 8	0.000 1	0.022 6	0.783 11	0.620 12	0.906 1	0.000 1	0.806 8	0.137 10	0.865 5	0.000 1	0.378 12	0.000 15	0.168 15	0.680 8	0.227 13
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
PPT-SpUNet-F.T.	0.332 12	0.556 6	0.270 7	0.123 14	0.519 4	0.091 7	0.349 4	0.000 3	0.000 7	0.000 1	0.339 9	0.383 10	0.498 10	0.833 4	0.807 4	0.241 4	0.584 9	0.000 3	0.755 7	0.124 8	0.000 9	0.608 3	0.330 8	0.530 9	0.314 2	0.000 9	0.374 8	0.000 1	0.000 3	0.197 5	0.459 7	0.000 11	0.000 1	0.117 6	0.000 3	0.876 7	0.095 2	0.682 9	0.000 7	0.086 8	0.518 7	0.433 2	0.930 4	0.000 1	0.000 2	0.563 3	0.542 14	0.077 7	0.715 4	0.858 11	0.756 5	0.008 16	0.171 12	0.874 8	0.000 1	0.039 7	0.550 11	0.000 7	0.545 5	0.256 8	0.657 8	0.453 4	0.351 10	0.449 11	0.213 6	0.392 12	0.611 11	0.000 7	0.037 15	0.946 6	0.138 13	0.000 1	0.000 12	0.063 11	0.308 2	0.537 8	0.796 5	0.673 4	0.323 11	0.392 10	0.400 14	0.509 7	0.000 4	0.000 1	0.649 1	0.000 11	0.023 12	0.000 12	0.000 4	0.914 6	0.002 16	0.506 16	0.163 11	0.359 8	0.872 5	0.000 12	0.000 1	0.623 7	0.112 6	0.001 12	0.000 4	0.000 1	0.021 9	0.753 5	0.565 15	0.150 4	0.579 4	0.806 9	0.267 9	0.616 4	0.042 14	0.783 13	0.000 6	0.374 11	0.000 1	0.000 8	0.000 3	0.620 8	0.000 5	0.000 9	0.000 1	0.572 13	0.634 5	0.350 9	0.792 5	0.000 10	0.000 1	0.376 9	0.535 6	0.378 6	0.855 7	0.672 3	0.074 13	0.000 11	0.185 10	0.000 1	0.727 12	0.660 12	0.076 17	0.000 10	0.432 12	0.646 10	0.000 1	0.594 8	0.006 13	0.000 7	0.000 1	0.658 7	0.000 2	0.000 1	0.661 4	0.549 10	0.300 14	0.291 8	0.045 14	0.942 11	0.304 8	0.600 8	0.572 7	0.135 12	0.695 5	0.000 1	0.008 9	0.793 9	0.942 2	0.899 2	0.000 1	0.816 6	0.181 7	0.897 2	0.000 1	0.679 4	0.223 8	0.264 5	0.691 5	0.345 12
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
L3DETR-ScanNet_200	0.336 8	0.533 11	0.279 6	0.155 10	0.508 5	0.073 11	0.101 17	0.000 3	0.058 6	0.000 1	0.294 14	0.233 14	0.548 4	0.927 1	0.788 10	0.264 2	0.463 11	0.000 3	0.638 12	0.098 13	0.014 7	0.411 12	0.226 13	0.525 10	0.225 9	0.010 7	0.397 6	0.000 1	0.000 3	0.192 6	0.380 14	0.598 6	0.000 1	0.117 6	0.000 3	0.883 6	0.082 8	0.689 4	0.000 7	0.032 17	0.549 6	0.417 4	0.910 5	0.000 1	0.000 2	0.448 8	0.613 9	0.000 10	0.697 7	0.960 3	0.759 4	0.158 2	0.293 3	0.883 7	0.000 1	0.312 3	0.583 4	0.079 4	0.422 11	0.068 17	0.660 7	0.418 7	0.298 12	0.430 12	0.114 11	0.526 5	0.776 3	0.051 3	0.679 3	0.946 6	0.152 7	0.000 1	0.183 8	0.000 15	0.211 8	0.511 10	0.409 16	0.565 12	0.355 8	0.448 8	0.512 5	0.557 3	0.000 4	0.000 1	0.420 9	0.000 11	0.007 17	0.104 6	0.000 4	0.125 17	0.330 3	0.514 15	0.146 12	0.321 13	0.860 8	0.174 11	0.000 1	0.629 6	0.075 14	0.000 14	0.000 4	0.000 1	0.002 10	0.671 8	0.712 7	0.141 6	0.339 12	0.856 4	0.261 12	0.529 10	0.067 10	0.835 6	0.000 6	0.369 12	0.000 1	0.259 2	0.000 3	0.629 6	0.000 5	0.487 1	0.000 1	0.579 11	0.646 4	0.107 17	0.720 11	0.122 7	0.000 1	0.333 14	0.505 10	0.303 9	0.908 3	0.503 13	0.565 2	0.074 8	0.324 1	0.000 1	0.740 8	0.661 11	0.109 13	0.000 10	0.427 13	0.563 17	0.000 1	0.579 11	0.108 8	0.000 7	0.000 1	0.664 6	0.000 2	0.000 1	0.641 7	0.539 11	0.416 7	0.515 2	0.256 11	0.940 12	0.312 6	0.209 17	0.620 3	0.138 11	0.636 11	0.000 1	0.000 12	0.775 13	0.861 5	0.765 12	0.000 1	0.801 9	0.119 11	0.860 8	0.000 1	0.687 2	0.001 14	0.192 14	0.679 9	0.699 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, Jian Zhang: Language-Assisted 3D Scene Understanding. arXiv23.12
ODIN - Sem200	0.368 4	0.562 4	0.297 4	0.207 4	0.380 17	0.196 1	0.828 2	0.000 3	0.321 2	0.000 1	0.400 5	0.775 1	0.460 13	0.501 17	0.769 12	0.065 15	0.870 3	0.000 3	0.913 1	0.213 3	0.000 9	0.000 17	0.389 2	0.554 4	0.312 3	0.000 9	0.591 1	0.000 1	0.000 3	0.491 1	0.487 3	0.894 2	0.000 1	0.378 2	0.303 1	0.796 17	0.088 6	0.669 13	0.081 1	0.216 1	0.256 17	0.334 13	0.898 7	0.000 1	0.000 2	0.370 14	0.599 10	0.000 10	0.581 16	0.988 2	0.749 8	0.090 6	0.242 5	0.921 4	0.000 1	0.202 5	0.609 2	0.000 7	0.655 1	0.214 13	0.654 9	0.346 15	0.408 7	0.485 9	0.169 8	0.631 2	0.704 6	0.000 7	0.814 1	0.940 10	0.127 16	0.000 1	0.000 12	0.462 4	0.227 6	0.641 4	0.885 3	0.657 5	0.434 3	0.000 17	0.550 2	0.393 15	0.000 4	0.000 1	0.590 4	0.000 11	0.048 2	0.077 9	0.000 4	0.784 16	0.131 10	0.557 10	0.316 2	0.359 8	0.833 14	0.373 2	0.000 1	0.661 4	0.108 9	0.001 12	0.000 4	0.000 1	0.301 3	0.612 11	0.565 15	0.129 10	0.482 8	0.468 16	0.274 5	0.561 8	0.376 1	0.912 2	0.181 1	0.440 6	0.000 1	0.166 4	0.000 3	0.641 5	0.000 5	0.426 2	0.000 1	0.642 5	0.626 7	0.259 11	0.787 8	0.429 4	0.000 1	0.589 1	0.523 8	0.246 11	0.857 6	0.000 17	0.228 9	0.000 11	0.265 4	0.000 1	0.752 6	0.832 1	0.090 16	0.157 1	0.791 1	0.578 16	0.000 1	0.373 15	0.539 1	0.000 7	0.000 1	0.685 5	0.000 2	0.000 1	0.632 8	0.575 3	0.663 1	0.152 11	0.358 9	0.926 13	0.397 3	0.454 15	0.610 4	0.119 15	0.685 7	0.000 1	0.000 12	0.803 8	0.740 9	0.441 14	0.000 1	0.800 10	0.000 17	0.871 3	0.000 1	0.220 17	0.487 1	0.862 1	0.682 6	0.054 17
Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki: ODIN: A Single Model for 2D and 3D Segmentation. CVPR 2024
AWCS	0.305 14	0.508 14	0.225 14	0.142 11	0.463 13	0.063 13	0.195 9	0.000 3	0.000 7	0.000 1	0.467 3	0.551 3	0.504 8	0.773 6	0.764 14	0.142 13	0.029 17	0.000 3	0.626 13	0.100 11	0.000 9	0.360 13	0.179 15	0.507 13	0.137 15	0.006 8	0.300 12	0.000 1	0.000 3	0.172 8	0.364 15	0.512 9	0.000 1	0.056 14	0.000 3	0.865 13	0.093 4	0.634 17	0.000 7	0.071 13	0.396 14	0.296 16	0.876 9	0.000 1	0.000 2	0.373 13	0.436 16	0.063 9	0.749 2	0.877 10	0.721 12	0.131 3	0.124 14	0.804 15	0.000 1	0.000 11	0.515 12	0.010 6	0.452 10	0.252 9	0.578 14	0.417 8	0.179 17	0.484 10	0.171 7	0.337 14	0.606 12	0.000 7	0.115 10	0.937 14	0.142 9	0.000 1	0.008 11	0.000 15	0.157 16	0.484 14	0.402 17	0.501 15	0.339 9	0.553 7	0.529 3	0.478 12	0.000 4	0.000 1	0.404 10	0.001 10	0.022 13	0.077 9	0.000 4	0.894 12	0.219 7	0.628 7	0.093 15	0.305 14	0.886 1	0.233 9	0.000 1	0.603 9	0.112 6	0.023 9	0.000 4	0.000 1	0.000 11	0.741 6	0.664 8	0.097 15	0.253 14	0.782 10	0.264 11	0.523 11	0.154 2	0.707 16	0.000 6	0.411 8	0.000 1	0.000 8	0.000 3	0.332 16	0.000 5	0.000 9	0.000 1	0.602 7	0.595 10	0.185 13	0.656 16	0.159 6	0.000 1	0.355 11	0.424 15	0.154 15	0.729 15	0.516 10	0.220 10	0.620 3	0.084 13	0.000 1	0.707 14	0.651 13	0.173 5	0.014 9	0.381 17	0.582 14	0.000 1	0.619 3	0.049 12	0.000 7	0.000 1	0.702 4	0.000 2	0.000 1	0.302 16	0.489 15	0.317 13	0.334 7	0.392 7	0.922 14	0.254 13	0.533 13	0.394 13	0.129 14	0.613 15	0.000 1	0.000 12	0.820 5	0.649 11	0.749 13	0.000 1	0.782 14	0.282 6	0.863 6	0.000 1	0.288 15	0.006 12	0.220 11	0.633 14	0.542 3
: Long-Tailed 3D Semantic Segmentation with Adaptive Weight Constraint and Sampling. ICRA 2024
LGround	0.272 15	0.485 15	0.184 15	0.106 15	0.476 11	0.077 10	0.218 8	0.000 3	0.000 7	0.000 1	0.547 2	0.295 11	0.540 5	0.746 10	0.745 15	0.058 16	0.112 16	0.005 1	0.658 11	0.077 15	0.000 9	0.322 14	0.178 16	0.512 11	0.190 13	0.199 2	0.277 15	0.000 1	0.000 3	0.173 7	0.399 12	0.000 11	0.000 1	0.039 16	0.000 3	0.858 14	0.085 7	0.676 11	0.002 5	0.103 6	0.498 8	0.323 14	0.703 12	0.000 1	0.000 2	0.296 15	0.549 12	0.216 1	0.702 6	0.768 14	0.718 14	0.028 10	0.092 16	0.786 16	0.000 1	0.000 11	0.453 16	0.022 5	0.251 17	0.252 9	0.572 15	0.348 14	0.321 11	0.514 7	0.063 15	0.279 16	0.552 15	0.000 7	0.019 16	0.932 15	0.132 15	0.000 1	0.000 12	0.000 15	0.156 17	0.457 15	0.623 12	0.518 14	0.265 16	0.358 11	0.381 15	0.395 14	0.000 4	0.000 1	0.127 17	0.012 8	0.051 1	0.000 12	0.000 4	0.886 13	0.014 14	0.437 17	0.179 8	0.244 15	0.826 15	0.000 12	0.000 1	0.599 10	0.136 1	0.085 3	0.000 4	0.000 1	0.000 11	0.565 13	0.612 13	0.143 5	0.207 15	0.566 14	0.232 15	0.446 15	0.127 4	0.708 15	0.000 6	0.384 9	0.000 1	0.000 8	0.000 3	0.402 14	0.000 5	0.059 7	0.000 1	0.525 15	0.566 11	0.229 12	0.659 15	0.000 10	0.000 1	0.265 15	0.446 14	0.147 16	0.720 17	0.597 8	0.066 14	0.000 11	0.187 9	0.000 1	0.726 13	0.467 17	0.134 12	0.000 10	0.413 15	0.629 12	0.000 1	0.363 16	0.055 10	0.022 3	0.000 1	0.626 11	0.000 2	0.000 1	0.323 15	0.479 17	0.154 16	0.117 15	0.028 16	0.901 15	0.243 15	0.415 16	0.295 17	0.143 6	0.610 16	0.000 1	0.000 12	0.777 12	0.397 17	0.324 16	0.000 1	0.778 15	0.179 8	0.702 16	0.000 1	0.274 16	0.404 4	0.233 10	0.622 15	0.398 7
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild. arXiv
CSC-Pretrain	0.249 17	0.455 17	0.171 16	0.079 17	0.418 15	0.059 14	0.186 10	0.000 3	0.000 7	0.000 1	0.335 10	0.250 13	0.316 16	0.766 7	0.697 17	0.142 13	0.170 14	0.003 2	0.553 14	0.112 9	0.097 1	0.201 16	0.186 14	0.476 15	0.081 16	0.000 9	0.216 17	0.000 1	0.000 3	0.001 17	0.314 17	0.000 11	0.000 1	0.055 15	0.000 3	0.832 16	0.094 3	0.659 15	0.002 5	0.076 9	0.310 16	0.293 17	0.664 14	0.000 1	0.000 2	0.175 17	0.634 6	0.130 2	0.552 17	0.686 17	0.700 17	0.076 7	0.110 15	0.770 17	0.000 1	0.000 11	0.430 17	0.000 7	0.319 15	0.166 15	0.542 17	0.327 16	0.205 16	0.332 14	0.052 16	0.375 13	0.444 17	0.000 7	0.012 17	0.930 17	0.203 3	0.000 1	0.000 12	0.046 12	0.175 14	0.413 16	0.592 14	0.471 16	0.299 15	0.152 16	0.340 16	0.247 17	0.000 4	0.000 1	0.225 15	0.058 3	0.037 4	0.000 12	0.207 2	0.862 15	0.014 14	0.548 13	0.033 16	0.233 16	0.816 16	0.000 12	0.000 1	0.542 15	0.123 5	0.121 1	0.019 2	0.000 1	0.000 11	0.463 16	0.454 17	0.045 17	0.128 17	0.557 15	0.235 14	0.441 16	0.063 11	0.484 17	0.000 6	0.308 17	0.000 1	0.000 8	0.000 3	0.318 17	0.000 5	0.000 9	0.000 1	0.545 14	0.543 12	0.164 14	0.734 9	0.000 10	0.000 1	0.215 17	0.371 16	0.198 14	0.743 14	0.205 15	0.062 15	0.000 11	0.079 14	0.000 1	0.683 16	0.547 16	0.142 9	0.000 10	0.441 11	0.579 15	0.000 1	0.464 14	0.098 9	0.041 1	0.000 1	0.590 14	0.000 2	0.000 1	0.373 13	0.494 14	0.174 15	0.105 16	0.001 17	0.895 16	0.222 16	0.537 12	0.307 16	0.180 5	0.625 14	0.000 1	0.000 12	0.591 17	0.609 14	0.398 15	0.000 1	0.766 17	0.014 16	0.638 17	0.000 1	0.377 13	0.004 13	0.206 13	0.609 17	0.465 5
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
Minkowski 34D	0.253 16	0.463 16	0.154 17	0.102 16	0.381 16	0.084 8	0.134 15	0.000 3	0.000 7	0.000 1	0.386 7	0.141 17	0.279 17	0.737 12	0.703 16	0.014 17	0.164 15	0.000 3	0.663 10	0.092 14	0.000 9	0.224 15	0.291 11	0.531 8	0.056 17	0.000 9	0.242 16	0.000 1	0.000 3	0.013 15	0.331 16	0.000 11	0.000 1	0.035 17	0.001 2	0.858 14	0.059 14	0.650 16	0.000 7	0.056 14	0.353 15	0.299 15	0.670 13	0.000 1	0.000 2	0.284 16	0.484 15	0.071 8	0.594 15	0.720 16	0.710 15	0.027 11	0.068 17	0.813 14	0.000 1	0.005 10	0.492 14	0.164 1	0.274 16	0.111 16	0.571 16	0.307 17	0.293 13	0.307 17	0.150 9	0.163 17	0.531 16	0.002 6	0.545 5	0.932 15	0.093 17	0.000 1	0.000 12	0.002 14	0.159 15	0.368 17	0.581 15	0.440 17	0.228 17	0.406 9	0.282 17	0.294 16	0.000 4	0.000 1	0.189 16	0.060 2	0.036 5	0.000 12	0.000 4	0.897 11	0.000 17	0.525 14	0.025 17	0.205 17	0.771 17	0.000 12	0.000 1	0.593 11	0.108 9	0.044 6	0.000 4	0.000 1	0.000 11	0.282 17	0.589 14	0.094 16	0.169 16	0.466 17	0.227 16	0.419 17	0.125 5	0.757 14	0.002 4	0.334 16	0.000 1	0.000 8	0.000 3	0.357 15	0.000 5	0.000 9	0.000 1	0.582 10	0.513 14	0.337 10	0.612 17	0.000 10	0.000 1	0.250 16	0.352 17	0.136 17	0.724 16	0.655 4	0.280 8	0.000 11	0.046 16	0.000 1	0.606 17	0.559 15	0.159 7	0.102 3	0.445 10	0.655 9	0.000 1	0.310 17	0.117 6	0.000 7	0.000 1	0.581 15	0.026 1	0.000 1	0.265 17	0.483 16	0.084 17	0.097 17	0.044 15	0.865 17	0.142 17	0.588 11	0.351 15	0.272 2	0.596 17	0.000 1	0.003 10	0.622 16	0.720 10	0.096 17	0.000 1	0.771 16	0.016 15	0.772 15	0.000 1	0.302 14	0.194 9	0.214 12	0.621 16	0.197 16
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019

This table lists the benchmark results for the ScanNet200 3D semantic instance scenario.

Method	avg ap 50%	head ap 50%	common ap 50%	tail ap 50%	backpack	bag	ball	bar	basket	bathroom cabinet	bathroom stall	bathroom stall door	bathroom vanity	bathtub	bed	bench	bicycle	bin	blackboard	blanket	blinds	board	book	bookshelf	bottle	bowl	box	broom	bucket	bulletin board	cabinet	calendar	candle	cart	case of water bottles	ceiling	ceiling light	chair	clock	closet	closet rod	clothes	clothes dryer	coat rack	coffee kettle	coffee maker	coffee table	column	computer tower	copier	couch	counter	cup	curtain	cushion	decoration	desk	dining table	dish rack	dishwasher	door	doorframe	dresser	dumbbell	end table	fan	file cabinet	fire alarm	fire extinguisher	folded chair	hat	headphones	ironing board	jacket	keyboard	keyboard piano	kitchen cabinet	kitchen counter	ladder	lamp	laptop	laundry basket	laundry detergent	laundry hamper	ledge	light	light switch	machine	mailbox	mat	microwave	mini fridge	mirror	monitor	mouse	music stand	nightstand	object	office chair	oven	paper	paper bag	paper cutter	paper towel dispenser	paper towel roll	person	piano	picture	pillow	pipe	plant	plate	plunger	poster	power outlet	power strip	printer	projector	projector screen	rack	radiator	range hood	recycling bin	refrigerator	scale	seat	shelf	shoe	shower	shower curtain	shower curtain rod	shower floor	shower head	shower wall	sign	sink	soap dispenser	sofa chair	speaker	stair rail	stairs	stand	stool	storage bin	storage container	storage organizer	stove	structure	stuffed animal	suitcase	table	telephone	tissue box	toaster	toilet	toilet paper	toilet paper dispenser	towel	trash bin	trash can	tray	tube	tv	tv stand	vacuum cleaner	vent	wardrobe	washing machine	water bottle	water cooler	water pitcher	whiteboard	window	windowsill

TD3D Scannet200	0.320 3	0.501 3	0.264 3	0.164 3	0.506 3	0.062 3	0.500 1	0.000 1	0.000 2	0.000 1	0.208 1	0.431 3	0.252 4	1.000 1	0.733 4	0.587 2	0.000 3	0.008 2	0.000 4	0.106 1	0.000 2	0.356 1	0.123 5	0.686 1	0.101 3	0.000 1	0.152 3	0.000 1	0.000 2	0.226 2	0.280 4	0.000 3	0.000 1	0.250 2	0.000 2	0.619 2	0.061 4	0.841 1	0.000 2	0.000 3	0.167 2	0.194 2	0.333 3	0.000 2	0.000 1	0.667 2	0.820 1	0.250 3	0.790 4	1.000 1	0.879 2	0.077 1	0.094 4	0.708 1	0.217 2	0.049 3	0.634 1	0.792 1	0.331 5	0.033 6	0.716 3	0.159 3	0.396 3	0.331 5	0.099 3	0.415 1	0.842 1	0.000 2	0.458 2	0.542 1	0.000 1	0.101 2	0.000 2	0.218 2	0.513 3	0.500 3	0.458 3	0.104 3	0.516 1	0.456 1	0.268 5	0.000 1	0.000 1	0.400 2	0.022 1	0.233 2	0.143 3	0.000 1	0.677 1	0.400 1	0.504 6	0.095 4	0.083 6	0.890 2	0.061 3	0.000 1	0.906 1	0.076 2	0.231 1	0.125 3	0.000 2	0.003 3	0.792 4	0.881 1	0.000 3	0.098 4	0.125 5	0.498 5	0.459 3	0.063 1	0.715 2	0.000 3	0.241 4	0.000 1	0.396 2	0.063 1	0.605 2	0.000 1	0.000 3	0.000 1	0.448 6	0.629 4	0.202 3	0.967 1	0.250 3	0.038 1	0.192 2	0.185 3	0.083 4	1.000 1	1.000 1	0.857 2	0.000 2	0.470 2	0.012 1	0.565 4	0.798 2	0.621 1	0.111 1	0.500 1	1.000 1	0.017 2	0.509 2	0.000 2	0.008 1	1.000 1	0.525 3	0.000 1	0.000 1	0.332 4	0.679 1	0.264 3	0.333 2	0.267 1	1.000 1	0.549 2	0.299 6	0.387 3	0.328 3	0.744 5	0.000 1	0.000 2	0.435 6	1.000 1	0.283 5	0.000 1	0.196 1	0.817 1	0.000 1	0.472 1	0.222 4	0.123 5	0.560 2	0.156 3
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
LGround Inst.	0.246 4	0.413 4	0.170 4	0.130 4	0.455 6	0.003 6	0.500 1	0.000 1	0.000 2	0.000 1	0.017 5	0.333 5	0.111 6	1.000 1	0.681 5	0.400 4	0.000 3	0.000 3	1.000 1	0.003 6	0.000 2	0.167 3	0.190 3	0.637 3	0.067 4	0.000 1	0.081 4	0.000 1	0.000 2	0.000 4	0.264 5	0.000 3	0.000 1	0.000 4	0.000 2	0.387 5	0.031 6	0.754 3	0.000 2	0.000 3	0.151 3	0.135 3	0.056 5	0.000 2	0.000 1	0.582 4	0.589 6	0.500 2	0.815 2	1.000 1	0.903 1	0.000 4	0.097 3	0.588 4	0.000 3	0.000 4	0.234 4	0.000 4	0.500 4	0.400 1	0.682 5	0.156 4	0.159 5	0.750 1	0.046 4	0.125 5	0.660 3	0.000 2	0.200 3	0.000 6	0.000 1	0.000 3	0.000 2	0.164 4	0.402 4	0.500 3	0.373 4	0.025 4	0.143 6	0.426 3	0.317 3	0.000 1	0.000 1	0.000 4	0.000 3	0.063 4	0.000 4	0.000 1	0.000 6	0.000 5	0.575 4	0.250 3	0.241 3	0.772 4	0.000 4	0.000 1	0.653 5	0.034 4	0.000 4	0.000 4	0.000 2	0.000 4	1.000 1	0.561 5	0.000 3	0.100 3	0.500 1	0.541 4	0.452 4	0.000 4	0.581 4	0.000 3	0.364 2	0.000 1	0.000 4	0.000 2	0.571 3	0.000 1	0.000 3	0.000 1	0.568 5	0.511 5	0.167 4	0.857 3	0.000 4	0.000 3	0.164 3	0.112 4	0.000 5	0.530 6	1.000 1	0.286 4	0.000 2	0.125 4	0.000 3	0.464 6	0.706 4	0.208 4	0.000 3	0.125 3	0.744 4	0.000 3	0.500 3	0.000 2	0.000 2	0.000 2	0.511 4	0.000 1	0.000 1	0.344 3	0.541 4	0.068 4	0.333 2	0.000 4	1.000 1	0.196 5	0.533 3	0.318 4	0.000 5	0.748 4	0.000 1	0.000 2	0.690 2	1.000 1	0.400 4	0.000 1	0.000 3	0.667 3	0.000 1	0.333 4	0.333 2	0.270 4	0.399 4	0.083 5
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild.
Minkowski 34D Inst.	0.203 6	0.369 5	0.134 6	0.078 6	0.479 5	0.003 5	0.500 1	0.000 1	0.000 2	0.000 1	0.100 2	0.371 4	0.300 3	0.667 4	0.746 3	0.400 4	0.000 3	0.000 3	0.000 4	0.031 4	0.000 2	0.074 4	0.165 4	0.413 6	0.000 5	0.000 1	0.070 5	0.000 1	0.000 2	0.000 4	0.221 6	0.000 3	0.000 1	0.000 4	0.000 2	0.372 6	0.070 2	0.706 4	0.000 2	0.000 3	0.000 6	0.123 5	0.033 6	0.000 2	0.000 1	0.422 5	0.732 3	0.000 5	0.778 6	1.000 1	0.845 3	0.000 4	0.090 5	0.636 2	0.000 3	0.000 4	0.158 5	0.000 4	0.250 6	0.050 5	0.693 4	0.123 5	0.051 6	0.385 4	0.009 5	0.118 6	0.406 6	0.000 2	0.000 5	0.200 2	0.000 1	0.000 3	0.000 2	0.133 5	0.307 6	0.500 3	0.251 5	0.000 5	0.281 4	0.402 4	0.317 3	0.000 1	0.000 1	0.000 4	0.000 3	0.060 5	0.000 4	0.000 1	0.396 3	0.200 3	0.669 3	0.021 5	0.218 5	0.720 6	0.000 4	0.000 1	0.696 4	0.025 5	0.000 4	0.000 4	0.000 2	0.000 4	0.125 6	0.596 3	0.000 3	0.191 2	0.500 1	0.595 2	0.369 5	0.000 4	0.500 5	0.000 3	0.143 6	0.000 1	0.000 4	0.000 2	0.226 6	0.000 1	0.000 3	0.000 1	0.701 2	0.511 5	0.000 6	0.851 4	0.000 4	0.000 3	0.150 5	0.052 6	0.100 3	0.981 4	0.500 4	0.286 4	0.000 2	0.000 6	0.000 3	0.545 5	0.522 6	0.250 3	0.000 3	0.000 6	0.522 6	0.000 3	0.500 3	0.000 2	0.000 2	0.000 2	0.282 6	0.000 1	0.000 1	0.178 6	0.382 5	0.018 6	0.056 5	0.000 4	0.997 3	0.107 6	0.677 2	0.313 5	0.000 5	0.726 6	0.000 1	0.000 2	0.583 4	0.903 5	0.200 6	0.000 1	0.000 3	0.333 5	0.000 1	0.442 2	0.083 5	0.109 6	0.387 5	0.000 6
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
CSC-Pretrain Inst.	0.209 5	0.361 6	0.157 5	0.085 5	0.506 2	0.007 4	0.500 1	0.000 1	0.000 2	0.000 1	0.000 6	0.093 6	0.221 5	0.667 4	0.524 6	0.400 4	0.000 3	0.000 3	0.000 4	0.004 5	0.000 2	0.000 6	0.109 6	0.589 5	0.000 5	0.000 1	0.059 6	0.000 1	0.000 2	0.000 4	0.322 3	0.000 3	0.000 1	0.000 4	0.000 2	0.405 4	0.055 5	0.700 5	0.000 2	0.000 3	0.028 5	0.091 6	0.083 4	0.000 2	0.000 1	0.667 2	0.768 2	0.000 5	0.807 3	1.000 1	0.776 5	0.000 4	0.000 6	0.340 6	0.000 3	0.000 4	0.103 6	0.000 4	0.750 1	0.200 3	0.634 6	0.053 6	0.246 4	0.677 2	0.006 6	0.198 4	0.432 5	0.000 2	0.000 5	0.050 5	0.000 1	0.000 3	0.000 2	0.111 6	0.356 5	0.500 3	0.188 6	0.000 5	0.220 5	0.448 2	0.050 6	0.000 1	0.000 1	0.000 4	0.000 3	0.032 6	0.000 4	0.000 1	0.396 3	0.000 5	0.573 5	0.000 6	0.228 4	0.747 5	0.000 4	0.000 1	0.573 6	0.021 6	0.000 4	0.000 4	0.000 2	0.000 4	0.500 5	0.573 4	0.000 3	0.000 6	0.125 5	0.592 3	0.364 6	0.000 4	0.450 6	0.000 3	0.364 2	0.000 1	0.000 4	0.000 2	0.340 4	0.000 1	0.000 3	0.000 1	0.610 4	0.833 1	0.221 2	0.702 5	0.000 4	0.000 3	0.135 6	0.094 5	0.125 2	0.571 5	0.500 4	0.143 6	0.000 2	0.125 4	0.000 3	0.618 2	0.667 5	0.115 6	0.000 3	0.125 3	1.000 1	0.000 3	0.500 3	0.000 2	0.000 2	0.000 2	0.502 5	0.000 1	0.000 1	0.312 5	0.248 6	0.050 5	0.000 6	0.000 4	0.997 3	0.420 4	0.500 4	0.149 6	0.451 2	0.748 3	0.000 1	0.000 2	0.636 3	0.667 6	0.600 3	0.000 1	0.000 3	0.278 6	0.000 1	0.333 4	0.000 6	0.294 3	0.381 6	0.110 4
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
ODIN - Ins200	0.381 2	0.507 2	0.375 1	0.237 1	0.484 4	0.108 1	0.500 1	0.000 1	0.125 1	0.000 1	0.058 4	0.647 2	0.385 2	0.667 4	0.853 2	0.542 3	1.000 1	0.000 3	1.000 1	0.093 2	0.000 2	0.028 5	0.274 2	0.682 2	0.550 1	0.000 1	0.269 1	0.000 1	0.000 2	0.714 1	0.566 1	1.000 1	0.000 1	0.500 1	0.125 1	0.585 3	0.066 3	0.653 6	0.083 1	0.049 1	0.264 1	0.227 1	0.667 1	0.000 2	0.000 1	0.278 6	0.723 5	0.250 3	0.786 5	1.000 1	0.744 6	0.039 2	0.209 1	0.494 5	0.000 3	0.250 1	0.446 3	0.500 3	0.750 1	0.200 3	0.780 1	0.333 1	0.602 1	0.469 3	0.163 1	0.406 2	0.530 4	0.000 2	0.668 1	0.200 2	0.000 1	0.000 3	0.500 1	0.313 1	0.769 1	1.000 1	0.511 2	0.196 2	0.286 3	0.393 5	0.337 2	0.000 1	0.000 1	0.600 1	0.000 3	0.174 3	0.226 2	0.000 1	0.579 2	0.200 3	0.887 1	0.750 1	0.428 2	0.782 3	0.438 1	0.000 1	0.795 3	0.063 3	0.003 3	0.500 1	0.000 2	0.333 1	1.000 1	0.742 2	0.083 1	0.585 1	0.417 4	0.448 6	0.496 2	0.055 2	0.734 1	0.472 1	0.174 5	0.000 1	0.250 3	0.000 2	0.688 1	0.000 1	1.000 1	0.000 1	0.631 3	0.667 3	0.275 1	0.694 6	1.000 1	0.000 3	0.328 1	0.422 1	0.000 5	1.000 1	0.500 4	0.638 3	0.000 2	0.391 3	0.000 3	0.582 3	0.800 1	0.208 5	0.000 3	0.246 2	0.667 5	0.000 3	0.638 1	0.167 1	0.000 2	0.000 2	0.778 1	0.000 1	0.000 1	0.563 1	0.614 3	0.841 1	0.333 2	0.250 2	0.938 5	0.569 1	0.500 4	0.695 1	0.264 4	0.863 1	0.000 1	0.000 2	0.550 5	1.000 1	0.668 2	0.000 1	0.000 3	0.667 3	0.000 1	0.333 4	0.333 2	0.665 1	0.434 3	0.264 2

Mask3D Scannet200	0.388 1	0.542 1	0.357 2	0.237 2	0.610 1	0.091 2	0.125 6	0.000 1	0.000 2	0.000 1	0.065 3	0.668 1	0.451 1	1.000 1	0.955 1	0.640 1	0.500 2	0.039 1	0.125 3	0.063 3	0.409 1	0.311 2	0.291 1	0.609 4	0.266 2	0.000 1	0.163 2	0.000 1	0.008 1	0.044 3	0.496 2	1.000 1	0.000 1	0.018 3	0.000 2	0.756 1	0.573 1	0.808 2	0.000 2	0.010 2	0.042 4	0.130 4	0.552 2	0.042 1	0.000 1	1.000 1	0.725 4	0.750 1	0.883 1	1.000 1	0.832 4	0.024 3	0.107 2	0.614 3	0.226 1	0.250 1	0.628 2	0.792 1	0.677 3	0.400 1	0.741 2	0.278 2	0.511 2	0.077 6	0.111 2	0.313 3	0.715 2	0.302 1	0.017 4	0.200 2	0.000 1	0.188 1	0.000 2	0.178 3	0.736 2	1.000 1	0.615 1	0.514 1	0.409 2	0.380 6	0.600 1	0.000 1	0.000 1	0.400 2	0.013 2	0.254 1	0.381 1	0.000 1	0.123 5	0.400 1	0.839 2	0.258 2	0.463 1	0.926 1	0.265 2	0.000 1	0.857 2	0.099 1	0.021 2	0.500 1	0.027 1	0.028 2	1.000 1	0.502 6	0.016 2	0.076 5	0.500 1	0.612 1	0.578 1	0.005 3	0.597 3	0.194 2	0.497 1	0.000 1	0.500 1	0.000 2	0.323 5	0.000 1	1.000 1	0.000 1	0.748 1	0.708 2	0.050 5	0.890 2	1.000 1	0.008 2	0.151 4	0.301 2	1.000 1	1.000 1	0.792 3	0.945 1	1.000 1	0.511 1	0.004 2	0.753 1	0.776 3	0.287 2	0.020 2	0.003 5	0.974 3	0.033 1	0.412 6	0.000 2	0.000 2	0.000 2	0.667 2	0.000 1	0.000 1	0.491 2	0.676 2	0.352 2	0.335 1	0.060 3	0.822 6	0.527 3	1.000 1	0.517 2	0.606 1	0.853 2	0.000 1	0.004 1	0.806 1	1.000 1	0.727 1	0.000 1	0.042 2	0.739 2	0.000 1	0.399 3	0.391 1	0.504 2	0.591 1	0.571 1
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023

ScanNet Benchmark

This table lists the benchmark results for the 3D semantic label scenario.

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

PTv3-PPT-ALC	0.798 1	0.911 11	0.812 22	0.854 8	0.770 12	0.856 15	0.555 17	0.943 1	0.660 26	0.735 2	0.979 1	0.606 7	0.492 1	0.792 4	0.934 4	0.841 2	0.819 6	0.716 9	0.947 10	0.906 1	0.822 1
Guangda Ji, Silvan Weder, Francis Engelmann, Marc Pollefeys, Hermann Blum: ARKit LabelMaker: A New Scale for Indoor 3D Scene Understanding. CVPR 2025
DITR ScanNet	0.797 2	0.727 76	0.869 1	0.882 1	0.785 6	0.868 7	0.578 5	0.943 1	0.744 1	0.727 3	0.979 1	0.627 2	0.364 9	0.824 1	0.949 2	0.779 15	0.844 1	0.757 1	0.982 1	0.905 2	0.802 3
Karim Abou Zeid, Kadir Yilmaz, Daan de Geus, Alexander Hermans, David Adrian, Timm Linder, Bastian Leibe: DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation.
PTv3 ScanNet	0.794 3	0.941 3	0.813 21	0.851 11	0.782 7	0.890 2	0.597 1	0.916 6	0.696 11	0.713 5	0.979 1	0.635 1	0.384 3	0.793 3	0.907 10	0.821 5	0.790 36	0.696 14	0.967 4	0.903 3	0.805 2
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
PonderV2	0.785 4	0.978 1	0.800 30	0.833 29	0.788 4	0.853 20	0.545 21	0.910 9	0.713 3	0.705 6	0.979 1	0.596 9	0.390 2	0.769 15	0.832 45	0.821 5	0.792 35	0.730 2	0.975 2	0.897 6	0.785 7
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
Mix3D	0.781 5	0.964 2	0.855 2	0.843 20	0.781 8	0.858 13	0.575 8	0.831 38	0.685 17	0.714 4	0.979 1	0.594 10	0.310 30	0.801 2	0.892 19	0.841 2	0.819 6	0.723 6	0.940 15	0.887 8	0.725 28
Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann: Mix3D: Out-of-Context Data Augmentation for 3D Scenes. 3DV 2021 (Oral)
Swin3D	0.779 6	0.861 23	0.818 16	0.836 26	0.790 3	0.875 4	0.576 7	0.905 10	0.704 7	0.739 1	0.969 12	0.611 3	0.349 12	0.756 25	0.958 1	0.702 51	0.805 19	0.708 10	0.916 39	0.898 5	0.801 4

TTT-KD	0.773 7	0.646 97	0.818 16	0.809 41	0.774 10	0.878 3	0.581 3	0.943 1	0.687 15	0.704 7	0.978 6	0.607 6	0.336 19	0.775 11	0.912 8	0.838 4	0.823 4	0.694 15	0.967 4	0.899 4	0.794 6
Lisa Weijler, Muhammad Jehanzeb Mirza, Leon Sick, Can Ekkazan, Pedro Hermosilla: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models.
ResLFE_HDS	0.772 8	0.939 4	0.824 7	0.854 8	0.771 11	0.840 35	0.564 13	0.900 12	0.686 16	0.677 14	0.961 18	0.537 36	0.348 13	0.769 15	0.903 12	0.785 13	0.815 9	0.676 26	0.939 16	0.880 13	0.772 11

PPT-SpUNet-Joint	0.766 9	0.932 5	0.794 36	0.829 31	0.751 26	0.854 18	0.540 25	0.903 11	0.630 39	0.672 17	0.963 16	0.565 26	0.357 10	0.788 5	0.900 14	0.737 31	0.802 20	0.685 20	0.950 8	0.887 8	0.780 8
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer	0.766 9	0.925 7	0.808 26	0.849 13	0.786 5	0.846 30	0.566 12	0.876 19	0.690 13	0.674 16	0.960 19	0.576 22	0.226 72	0.753 27	0.904 11	0.777 16	0.815 9	0.722 7	0.923 31	0.877 16	0.776 10
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
CU-Hybrid Net	0.764 11	0.924 8	0.819 14	0.840 23	0.757 21	0.853 20	0.580 4	0.848 30	0.709 5	0.643 27	0.958 23	0.587 16	0.295 38	0.753 27	0.884 23	0.758 23	0.815 9	0.725 5	0.927 27	0.867 27	0.743 19

OccuSeg+Semantic	0.764 11	0.758 61	0.796 34	0.839 24	0.746 30	0.907 1	0.562 14	0.850 29	0.680 19	0.672 17	0.978 6	0.610 4	0.335 21	0.777 9	0.819 49	0.847 1	0.830 3	0.691 17	0.972 3	0.885 10	0.727 26

O-CNN	0.762 13	0.924 8	0.823 8	0.844 19	0.770 12	0.852 22	0.577 6	0.847 32	0.711 4	0.640 31	0.958 23	0.592 11	0.217 78	0.762 20	0.888 20	0.758 23	0.813 13	0.726 4	0.932 25	0.868 26	0.744 18
Peng-Shuai Wang, Yang Liu, Yu-Xiao Guo, Chun-Yu Sun, Xin Tong: O-CNN: Octree-based Convolutional Neural Networks for 3D Shape Analysis. SIGGRAPH 2017
DiffSegNet	0.758 14	0.725 78	0.789 41	0.843 20	0.762 17	0.856 15	0.562 14	0.920 4	0.657 29	0.658 21	0.958 23	0.589 14	0.337 18	0.782 6	0.879 24	0.787 11	0.779 41	0.678 22	0.926 29	0.880 13	0.799 5

DTC	0.757 15	0.843 29	0.820 12	0.847 16	0.791 2	0.862 11	0.511 38	0.870 22	0.707 6	0.652 23	0.954 40	0.604 8	0.279 48	0.760 21	0.942 3	0.734 32	0.766 50	0.701 13	0.884 61	0.874 22	0.736 20

OA-CNN-L_ScanNet20	0.756 16	0.783 47	0.826 6	0.858 6	0.776 9	0.837 39	0.548 20	0.896 15	0.649 31	0.675 15	0.962 17	0.586 17	0.335 21	0.771 14	0.802 54	0.770 19	0.787 38	0.691 17	0.936 20	0.880 13	0.761 13

ConDaFormer	0.755 17	0.927 6	0.822 10	0.836 26	0.801 1	0.849 25	0.516 35	0.864 26	0.651 30	0.680 13	0.958 23	0.584 19	0.282 45	0.759 23	0.855 35	0.728 34	0.802 20	0.678 22	0.880 66	0.873 23	0.756 16
Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Guisong Xia, Dacheng Tao: ConDaFormer : Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding. Neurips, 2023
LSK3DNet	0.755 17	0.899 16	0.823 8	0.843 20	0.764 16	0.838 38	0.584 2	0.845 33	0.717 2	0.638 33	0.956 30	0.580 21	0.229 71	0.640 48	0.900 14	0.750 26	0.813 13	0.729 3	0.920 35	0.872 24	0.757 14
Tuo Feng, Wenguan Wang, Fan Ma, Yi Yang: LSK3DNet: Towards Effective and Efficient 3D Perception with Large Sparse Kernels. CVPR 2024
PNE	0.755 17	0.786 45	0.835 5	0.834 28	0.758 19	0.849 25	0.570 10	0.836 37	0.648 32	0.668 19	0.978 6	0.581 20	0.367 7	0.683 39	0.856 33	0.804 8	0.801 24	0.678 22	0.961 6	0.889 7	0.716 35
P. Hermosilla: Point Neighborhood Embeddings.
PointTransformerV2	0.752 20	0.742 68	0.809 25	0.872 2	0.758 19	0.860 12	0.552 18	0.891 17	0.610 46	0.687 8	0.960 19	0.559 30	0.304 33	0.766 18	0.926 6	0.767 20	0.797 28	0.644 38	0.942 13	0.876 19	0.722 31
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao: Point Transformer V2: Grouped Vector Attention and Partition-based Pooling. NeurIPS 2022
DMF-Net	0.752 20	0.906 14	0.793 38	0.802 47	0.689 45	0.825 52	0.556 16	0.867 23	0.681 18	0.602 50	0.960 19	0.555 32	0.365 8	0.779 8	0.859 30	0.747 27	0.795 32	0.717 8	0.917 38	0.856 35	0.764 12
C.Yang, Y.Yan, W.Zhao, J.Ye, X.Yang, A.Hussain, B.Dong, K.Huang: Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic Segmentation. ICONIP 2023
PointConvFormer	0.749 22	0.793 43	0.790 39	0.807 43	0.750 28	0.856 15	0.524 31	0.881 18	0.588 58	0.642 30	0.977 10	0.591 12	0.274 51	0.781 7	0.929 5	0.804 8	0.796 29	0.642 39	0.947 10	0.885 10	0.715 36
Wenxuan Wu, Qi Shan, Li Fuxin: PointConvFormer: Revenge of the Point-based Convolution.
BPNet	0.749 22	0.909 12	0.818 16	0.811 39	0.752 24	0.839 37	0.485 53	0.842 34	0.673 21	0.644 26	0.957 28	0.528 42	0.305 32	0.773 12	0.859 30	0.788 10	0.818 8	0.693 16	0.916 39	0.856 35	0.723 30
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MSP	0.748 24	0.623 100	0.804 28	0.859 5	0.745 31	0.824 54	0.501 42	0.912 8	0.690 13	0.685 10	0.956 30	0.567 25	0.320 27	0.768 17	0.918 7	0.720 39	0.802 20	0.676 26	0.921 33	0.881 12	0.779 9

StratifiedFormer	0.747 25	0.901 15	0.803 29	0.845 18	0.757 21	0.846 30	0.512 37	0.825 41	0.696 11	0.645 25	0.956 30	0.576 22	0.262 62	0.744 33	0.861 29	0.742 29	0.770 48	0.705 11	0.899 51	0.860 32	0.734 21
Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia: Stratified Transformer for 3D Point Cloud Segmentation. CVPR 2022
VMNet	0.746 26	0.870 21	0.838 3	0.858 6	0.729 36	0.850 24	0.501 42	0.874 20	0.587 59	0.658 21	0.956 30	0.564 27	0.299 35	0.765 19	0.900 14	0.716 42	0.812 15	0.631 44	0.939 16	0.858 33	0.709 37
Zeyu HU, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai: VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation. ICCV 2021 (Oral)
Virtual MVFusion	0.746 26	0.771 55	0.819 14	0.848 15	0.702 43	0.865 10	0.397 90	0.899 13	0.699 9	0.664 20	0.948 62	0.588 15	0.330 23	0.746 32	0.851 39	0.764 21	0.796 29	0.704 12	0.935 21	0.866 28	0.728 24
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
DiffSeg3D2	0.745 28	0.725 78	0.814 20	0.837 25	0.751 26	0.831 46	0.514 36	0.896 15	0.674 20	0.684 11	0.960 19	0.564 27	0.303 34	0.773 12	0.820 48	0.713 45	0.798 27	0.690 19	0.923 31	0.875 20	0.757 14

ODIN	0.744 29	0.658 93	0.752 64	0.870 3	0.714 40	0.843 33	0.569 11	0.919 5	0.703 8	0.622 40	0.949 59	0.591 12	0.343 15	0.736 34	0.784 56	0.816 7	0.838 2	0.672 31	0.918 37	0.854 39	0.725 28
Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki: ODIN: A Single Model for 2D and 3D Segmentation. CVPR 2024
Retro-FPN	0.744 29	0.842 30	0.800 30	0.767 61	0.740 32	0.836 41	0.541 23	0.914 7	0.672 22	0.626 37	0.958 23	0.552 33	0.272 53	0.777 9	0.886 22	0.696 52	0.801 24	0.674 29	0.941 14	0.858 33	0.717 33
Peng Xiang, Xin Wen, Yu-Shen Liu, Hui Zhang, Yi Fang, Zhizhong Han: Retrospective Feature Pyramid Network for Point Cloud Semantic Segmentation. ICCV 2023
EQ-Net	0.743 31	0.620 101	0.799 33	0.849 13	0.730 35	0.822 56	0.493 50	0.897 14	0.664 23	0.681 12	0.955 34	0.562 29	0.378 4	0.760 21	0.903 12	0.738 30	0.801 24	0.673 30	0.907 43	0.877 16	0.745 17
Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya JIa: A Unified Query-based Paradigm for Point Cloud Understanding. CVPR 2022
SAT	0.742 32	0.860 24	0.765 55	0.819 34	0.769 14	0.848 27	0.533 27	0.829 39	0.663 24	0.631 36	0.955 34	0.586 17	0.274 51	0.753 27	0.896 17	0.729 33	0.760 56	0.666 33	0.921 33	0.855 37	0.733 22

LRPNet	0.742 32	0.816 38	0.806 27	0.807 43	0.752 24	0.828 50	0.575 8	0.839 36	0.699 9	0.637 34	0.954 40	0.520 45	0.320 27	0.755 26	0.834 43	0.760 22	0.772 45	0.676 26	0.915 41	0.862 30	0.717 33

LargeKernel3D	0.739 34	0.909 12	0.820 12	0.806 45	0.740 32	0.852 22	0.545 21	0.826 40	0.594 57	0.643 27	0.955 34	0.541 35	0.263 61	0.723 37	0.858 32	0.775 18	0.767 49	0.678 22	0.933 23	0.848 43	0.694 42
Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia: LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs. CVPR 2023
RPN	0.736 35	0.776 51	0.790 39	0.851 11	0.754 23	0.854 18	0.491 52	0.866 24	0.596 56	0.686 9	0.955 34	0.536 37	0.342 16	0.624 55	0.869 26	0.787 11	0.802 20	0.628 45	0.927 27	0.875 20	0.704 39

MinkowskiNet	0.736 35	0.859 25	0.818 16	0.832 30	0.709 41	0.840 35	0.521 33	0.853 28	0.660 26	0.643 27	0.951 51	0.544 34	0.286 43	0.731 35	0.893 18	0.675 60	0.772 45	0.683 21	0.874 72	0.852 41	0.727 26
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
IPCA	0.731 37	0.890 17	0.837 4	0.864 4	0.726 37	0.873 5	0.530 30	0.824 42	0.489 92	0.647 24	0.978 6	0.609 5	0.336 19	0.624 55	0.733 64	0.758 23	0.776 43	0.570 70	0.949 9	0.877 16	0.728 24

online3d	0.727 38	0.715 83	0.777 48	0.854 8	0.748 29	0.858 13	0.497 47	0.872 21	0.572 65	0.639 32	0.957 28	0.523 43	0.297 37	0.750 30	0.803 53	0.744 28	0.810 16	0.587 66	0.938 18	0.871 25	0.719 32

PointTransformer++	0.725 39	0.727 76	0.811 24	0.819 34	0.765 15	0.841 34	0.502 41	0.814 47	0.621 42	0.623 39	0.955 34	0.556 31	0.284 44	0.620 57	0.866 27	0.781 14	0.757 60	0.648 36	0.932 25	0.862 30	0.709 37

SparseConvNet	0.725 39	0.647 96	0.821 11	0.846 17	0.721 38	0.869 6	0.533 27	0.754 63	0.603 52	0.614 42	0.955 34	0.572 24	0.325 25	0.710 38	0.870 25	0.724 37	0.823 4	0.628 45	0.934 22	0.865 29	0.683 45

MatchingNet	0.724 41	0.812 40	0.812 22	0.810 40	0.735 34	0.834 43	0.495 49	0.860 27	0.572 65	0.602 50	0.954 40	0.512 47	0.280 47	0.757 24	0.845 41	0.725 36	0.780 40	0.606 55	0.937 19	0.851 42	0.700 41

INS-Conv-semantic	0.717 42	0.751 64	0.759 58	0.812 38	0.704 42	0.868 7	0.537 26	0.842 34	0.609 48	0.608 46	0.953 44	0.534 39	0.293 39	0.616 58	0.864 28	0.719 41	0.793 33	0.640 40	0.933 23	0.845 47	0.663 50

PointMetaBase	0.714 43	0.835 31	0.785 43	0.821 32	0.684 47	0.846 30	0.531 29	0.865 25	0.614 43	0.596 54	0.953 44	0.500 50	0.246 67	0.674 40	0.888 20	0.692 53	0.764 52	0.624 47	0.849 87	0.844 48	0.675 47

contrastBoundary	0.705 44	0.769 58	0.775 49	0.809 41	0.687 46	0.820 59	0.439 78	0.812 48	0.661 25	0.591 56	0.945 70	0.515 46	0.171 97	0.633 52	0.856 33	0.720 39	0.796 29	0.668 32	0.889 58	0.847 44	0.689 43
Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao: Contrastive Boundary Learning for Point Cloud Segmentation. CVPR2022
ClickSeg_Semantic	0.703 45	0.774 53	0.800 30	0.793 52	0.760 18	0.847 29	0.471 57	0.802 51	0.463 99	0.634 35	0.968 14	0.491 53	0.271 55	0.726 36	0.910 9	0.706 47	0.815 9	0.551 82	0.878 67	0.833 49	0.570 82

RFCR	0.702 46	0.889 18	0.745 69	0.813 37	0.672 50	0.818 63	0.493 50	0.815 46	0.623 40	0.610 44	0.947 64	0.470 62	0.249 66	0.594 62	0.848 40	0.705 48	0.779 41	0.646 37	0.892 56	0.823 55	0.611 65
Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma: Omni-Supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning. CVPR2021
One Thing One Click	0.701 47	0.825 35	0.796 34	0.723 68	0.716 39	0.832 45	0.433 80	0.816 44	0.634 37	0.609 45	0.969 12	0.418 88	0.344 14	0.559 74	0.833 44	0.715 43	0.808 18	0.560 76	0.902 48	0.847 44	0.680 46

JSENet	0.699 48	0.881 20	0.762 56	0.821 32	0.667 51	0.800 76	0.522 32	0.792 54	0.613 44	0.607 47	0.935 90	0.492 52	0.205 84	0.576 67	0.853 37	0.691 54	0.758 58	0.652 35	0.872 75	0.828 52	0.649 54
Zeyu HU, Mingmin Zhen, Xuyang BAI, Hongbo Fu, Chiew-lan Tai: JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D Point Clouds. ECCV 2020
One-Thing-One-Click	0.693 49	0.743 67	0.794 36	0.655 91	0.684 47	0.822 56	0.497 47	0.719 73	0.622 41	0.617 41	0.977 10	0.447 75	0.339 17	0.750 30	0.664 81	0.703 50	0.790 36	0.596 59	0.946 12	0.855 37	0.647 55
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
PicassoNet-II	0.692 50	0.732 72	0.772 50	0.786 53	0.677 49	0.866 9	0.517 34	0.848 30	0.509 85	0.626 37	0.952 49	0.536 37	0.225 74	0.545 80	0.704 71	0.689 57	0.810 16	0.564 75	0.903 47	0.854 39	0.729 23
Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian: Geometric feature learning for 3D meshes.
Feature_GeometricNet	0.690 51	0.884 19	0.754 62	0.795 50	0.647 58	0.818 63	0.422 82	0.802 51	0.612 45	0.604 48	0.945 70	0.462 65	0.189 92	0.563 73	0.853 37	0.726 35	0.765 51	0.632 43	0.904 45	0.821 58	0.606 69
Kangcheng Liu, Ben M. Chen: https://arxiv.org/abs/2012.09439. arXiv Preprint
FusionNet	0.688 52	0.704 85	0.741 73	0.754 65	0.656 53	0.829 48	0.501 42	0.741 68	0.609 48	0.548 63	0.950 55	0.522 44	0.371 5	0.633 52	0.756 59	0.715 43	0.771 47	0.623 48	0.861 83	0.814 61	0.658 51
Feihu Zhang, Jin Fang, Benjamin Wah, Philip Torr: Deep FusionNet for Point Cloud Semantic Segmentation. ECCV 2020
Feature-Geometry Net	0.685 53	0.866 22	0.748 66	0.819 34	0.645 60	0.794 79	0.450 68	0.802 51	0.587 59	0.604 48	0.945 70	0.464 64	0.201 87	0.554 76	0.840 42	0.723 38	0.732 71	0.602 57	0.907 43	0.822 57	0.603 72

VACNN++	0.684 54	0.728 75	0.757 61	0.776 58	0.690 44	0.804 74	0.464 62	0.816 44	0.577 64	0.587 57	0.945 70	0.508 49	0.276 50	0.671 41	0.710 69	0.663 65	0.750 64	0.589 64	0.881 64	0.832 51	0.653 53

DGNet	0.684 54	0.712 84	0.784 44	0.782 57	0.658 52	0.835 42	0.499 46	0.823 43	0.641 34	0.597 53	0.950 55	0.487 55	0.281 46	0.575 68	0.619 85	0.647 73	0.764 52	0.620 50	0.871 78	0.846 46	0.688 44

KP-FCNN	0.684 54	0.847 28	0.758 60	0.784 55	0.647 58	0.814 66	0.473 56	0.772 57	0.605 50	0.594 55	0.935 90	0.450 73	0.181 95	0.587 63	0.805 52	0.690 55	0.785 39	0.614 51	0.882 63	0.819 59	0.632 61
H. Thomas, C. Qi, J. Deschaud, B. Marcotegui, F. Goulette, L. Guibas.: KPConv: Flexible and Deformable Convolution for Point Clouds. ICCV 2019
Superpoint Network	0.683 57	0.851 27	0.728 77	0.800 49	0.653 55	0.806 72	0.468 59	0.804 49	0.572 65	0.602 50	0.946 67	0.453 72	0.239 70	0.519 85	0.822 46	0.689 57	0.762 55	0.595 61	0.895 54	0.827 53	0.630 62

PointContrast_LA_SEM	0.683 57	0.757 62	0.784 44	0.786 53	0.639 62	0.824 54	0.408 85	0.775 56	0.604 51	0.541 65	0.934 94	0.532 40	0.269 57	0.552 77	0.777 57	0.645 76	0.793 33	0.640 40	0.913 42	0.824 54	0.671 48

VI-PointConv	0.676 59	0.770 57	0.754 62	0.783 56	0.621 66	0.814 66	0.552 18	0.758 61	0.571 68	0.557 61	0.954 40	0.529 41	0.268 59	0.530 83	0.682 75	0.675 60	0.719 74	0.603 56	0.888 59	0.833 49	0.665 49
Xingyi Li, Wenxuan Wu, Xiaoli Z. Fern, Li Fuxin: The Devils in the Point Clouds: Studying the Robustness of Point Cloud Convolutions.
ROSMRF3D	0.673 60	0.789 44	0.748 66	0.763 63	0.635 64	0.814 66	0.407 87	0.747 65	0.581 63	0.573 58	0.950 55	0.484 56	0.271 55	0.607 59	0.754 60	0.649 70	0.774 44	0.596 59	0.883 62	0.823 55	0.606 69

SALANet	0.670 61	0.816 38	0.770 53	0.768 60	0.652 56	0.807 71	0.451 65	0.747 65	0.659 28	0.545 64	0.924 100	0.473 61	0.149 107	0.571 70	0.811 51	0.635 80	0.746 65	0.623 48	0.892 56	0.794 74	0.570 82

O3DSeg	0.668 62	0.822 36	0.771 52	0.496 111	0.651 57	0.833 44	0.541 23	0.761 60	0.555 74	0.611 43	0.966 15	0.489 54	0.370 6	0.388 104	0.580 88	0.776 17	0.751 62	0.570 70	0.956 7	0.817 60	0.646 56

PointASNL	0.666 63	0.703 86	0.781 46	0.751 67	0.655 54	0.830 47	0.471 57	0.769 58	0.474 95	0.537 67	0.951 51	0.475 60	0.279 48	0.635 50	0.698 74	0.675 60	0.751 62	0.553 81	0.816 94	0.806 65	0.703 40
Xu Yan, Chaoda Zheng, Zhen Li, Sheng Wang, Shuguang Cui: PointASNL: Robust Point Clouds Processing using Nonlocal Neural Networks with Adaptive Sampling. CVPR 2020
PointConv	0.666 63	0.781 48	0.759 58	0.699 76	0.644 61	0.822 56	0.475 55	0.779 55	0.564 71	0.504 82	0.953 44	0.428 82	0.203 86	0.586 65	0.754 60	0.661 66	0.753 61	0.588 65	0.902 48	0.813 63	0.642 57
Wenxuan Wu, Zhongang Qi, Li Fuxin: PointConv: Deep Convolutional Networks on 3D Point Clouds. CVPR 2019
PPCNN++	0.663 65	0.746 65	0.708 80	0.722 69	0.638 63	0.820 59	0.451 65	0.566 101	0.599 54	0.541 65	0.950 55	0.510 48	0.313 29	0.648 46	0.819 49	0.616 85	0.682 89	0.590 63	0.869 79	0.810 64	0.656 52
Pyunghwan Ahn, Juyoung Yang, Eojindl Yi, Chanho Lee, Junmo Kim: Projection-based Point Convolution for Efficient Point Cloud Segmentation. IEEE Access
DCM-Net	0.658 66	0.778 49	0.702 83	0.806 45	0.619 67	0.813 69	0.468 59	0.693 81	0.494 88	0.524 73	0.941 82	0.449 74	0.298 36	0.510 87	0.821 47	0.675 60	0.727 73	0.568 73	0.826 92	0.803 67	0.637 59
Jonas Schult, Francis Engelmann, Theodora Kontogianni, Bastian Leibe: DualConvMesh-Net: Joint Geodesic and Euclidean Convolutions on 3D Meshes. CVPR 2020 [Oral]
HPGCNN	0.656 67	0.698 88	0.743 71	0.650 92	0.564 84	0.820 59	0.505 40	0.758 61	0.631 38	0.479 86	0.945 70	0.480 58	0.226 72	0.572 69	0.774 58	0.690 55	0.735 69	0.614 51	0.853 86	0.776 89	0.597 75
Jisheng Dang, Qingyong Hu, Yulan Guo, Jun Yang: HPGCNN.
SAFNet-seg	0.654 68	0.752 63	0.734 75	0.664 89	0.583 79	0.815 65	0.399 89	0.754 63	0.639 35	0.535 69	0.942 80	0.470 62	0.309 31	0.665 42	0.539 91	0.650 69	0.708 79	0.635 42	0.857 85	0.793 76	0.642 57
Linqing Zhao, Jiwen Lu, Jie Zhou: Similarity-Aware Fusion Network for 3D Semantic Segmentation. IROS 2021
RandLA-Net	0.645 69	0.778 49	0.731 76	0.699 76	0.577 80	0.829 48	0.446 70	0.736 69	0.477 94	0.523 75	0.945 70	0.454 69	0.269 57	0.484 94	0.749 63	0.618 83	0.738 67	0.599 58	0.827 91	0.792 79	0.621 64

PointConv-SFPN	0.641 70	0.776 51	0.703 82	0.721 70	0.557 87	0.826 51	0.451 65	0.672 86	0.563 72	0.483 85	0.943 79	0.425 85	0.162 102	0.644 47	0.726 65	0.659 67	0.709 78	0.572 69	0.875 70	0.786 84	0.559 88

MVPNet	0.641 70	0.831 32	0.715 78	0.671 86	0.590 75	0.781 85	0.394 91	0.679 83	0.642 33	0.553 62	0.937 87	0.462 65	0.256 63	0.649 45	0.406 104	0.626 81	0.691 86	0.666 33	0.877 68	0.792 79	0.608 68
Maximilian Jaritz, Jiayuan Gu, Hao Su: Multi-view PointNet for 3D Scene Understanding. GMDL Workshop, ICCV 2019
PointMRNet	0.640 72	0.717 82	0.701 84	0.692 79	0.576 81	0.801 75	0.467 61	0.716 74	0.563 72	0.459 92	0.953 44	0.429 81	0.169 99	0.581 66	0.854 36	0.605 86	0.710 76	0.550 83	0.894 55	0.793 76	0.575 80

FPConv	0.639 73	0.785 46	0.760 57	0.713 74	0.603 70	0.798 77	0.392 93	0.534 106	0.603 52	0.524 73	0.948 62	0.457 67	0.250 65	0.538 81	0.723 67	0.598 90	0.696 84	0.614 51	0.872 75	0.799 69	0.567 85
Yiqun Lin, Zizheng Yan, Haibin Huang, Dong Du, Ligang Liu, Shuguang Cui, Xiaoguang Han: FPConv: Learning Local Flattening for Point Convolution. CVPR 2020
PD-Net	0.638 74	0.797 42	0.769 54	0.641 97	0.590 75	0.820 59	0.461 63	0.537 105	0.637 36	0.536 68	0.947 64	0.388 95	0.206 83	0.656 43	0.668 79	0.647 73	0.732 71	0.585 67	0.868 80	0.793 76	0.473 108

PointSPNet	0.637 75	0.734 71	0.692 91	0.714 73	0.576 81	0.797 78	0.446 70	0.743 67	0.598 55	0.437 97	0.942 80	0.403 91	0.150 106	0.626 54	0.800 55	0.649 70	0.697 83	0.557 79	0.846 88	0.777 88	0.563 86

SConv	0.636 76	0.830 33	0.697 87	0.752 66	0.572 83	0.780 87	0.445 72	0.716 74	0.529 78	0.530 70	0.951 51	0.446 76	0.170 98	0.507 89	0.666 80	0.636 79	0.682 89	0.541 89	0.886 60	0.799 69	0.594 76

Supervoxel-CNN	0.635 77	0.656 94	0.711 79	0.719 71	0.613 68	0.757 96	0.444 75	0.765 59	0.534 77	0.566 59	0.928 98	0.478 59	0.272 53	0.636 49	0.531 93	0.664 64	0.645 99	0.508 97	0.864 82	0.792 79	0.611 65

joint point-based	0.634 78	0.614 102	0.778 47	0.667 88	0.633 65	0.825 52	0.420 83	0.804 49	0.467 97	0.561 60	0.951 51	0.494 51	0.291 40	0.566 71	0.458 99	0.579 96	0.764 52	0.559 78	0.838 89	0.814 61	0.598 74
Hung-Yueh Chiang, Yen-Liang Lin, Yueh-Cheng Liu, Winston H. Hsu: A Unified Point-Based Framework for 3D Segmentation. 3DV 2019
PointMTL	0.632 79	0.731 73	0.688 94	0.675 83	0.591 74	0.784 84	0.444 75	0.565 102	0.610 46	0.492 83	0.949 59	0.456 68	0.254 64	0.587 63	0.706 70	0.599 89	0.665 95	0.612 54	0.868 80	0.791 82	0.579 79

3DSM_DMMF	0.631 80	0.626 99	0.745 69	0.801 48	0.607 69	0.751 97	0.506 39	0.729 72	0.565 70	0.491 84	0.866 114	0.434 77	0.197 90	0.595 61	0.630 84	0.709 46	0.705 81	0.560 76	0.875 70	0.740 99	0.491 103

PointNet2-SFPN	0.631 80	0.771 55	0.692 91	0.672 84	0.524 93	0.837 39	0.440 77	0.706 79	0.538 76	0.446 94	0.944 76	0.421 87	0.219 77	0.552 77	0.751 62	0.591 92	0.737 68	0.543 88	0.901 50	0.768 91	0.557 89

APCF-Net	0.631 80	0.742 68	0.687 96	0.672 84	0.557 87	0.792 82	0.408 85	0.665 88	0.545 75	0.508 79	0.952 49	0.428 82	0.186 93	0.634 51	0.702 72	0.620 82	0.706 80	0.555 80	0.873 73	0.798 71	0.581 78
Haojia, Lin: Adaptive Pyramid Context Fusion for Point Cloud Perception. GRSL
FusionAwareConv	0.630 83	0.604 104	0.741 73	0.766 62	0.590 75	0.747 98	0.501 42	0.734 70	0.503 87	0.527 71	0.919 104	0.454 69	0.323 26	0.550 79	0.420 103	0.678 59	0.688 87	0.544 86	0.896 53	0.795 73	0.627 63
Jiazhao Zhang, Chenyang Zhu, Lintao Zheng, Kai Xu: Fusion-Aware Point Convolution for Online Semantic 3D Scene Segmentation. CVPR 2020
DenSeR	0.628 84	0.800 41	0.625 106	0.719 71	0.545 90	0.806 72	0.445 72	0.597 96	0.448 102	0.519 77	0.938 86	0.481 57	0.328 24	0.489 93	0.499 98	0.657 68	0.759 57	0.592 62	0.881 64	0.797 72	0.634 60

SegGroup_sem	0.627 85	0.818 37	0.747 68	0.701 75	0.602 71	0.764 93	0.385 97	0.629 93	0.490 90	0.508 79	0.931 97	0.409 90	0.201 87	0.564 72	0.725 66	0.618 83	0.692 85	0.539 90	0.873 73	0.794 74	0.548 92
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
SIConv	0.625 86	0.830 33	0.694 89	0.757 64	0.563 85	0.772 91	0.448 69	0.647 91	0.520 81	0.509 78	0.949 59	0.431 80	0.191 91	0.496 91	0.614 86	0.647 73	0.672 93	0.535 93	0.876 69	0.783 85	0.571 81

dtc_net	0.625 86	0.703 86	0.751 65	0.794 51	0.535 91	0.848 27	0.480 54	0.676 85	0.528 79	0.469 89	0.944 76	0.454 69	0.004 119	0.464 96	0.636 83	0.704 49	0.758 58	0.548 85	0.924 30	0.787 83	0.492 102

Weakly-Openseg v3	0.625 86	0.924 8	0.787 42	0.620 99	0.555 89	0.811 70	0.393 92	0.666 87	0.382 110	0.520 76	0.953 44	0.250 114	0.208 81	0.604 60	0.670 77	0.644 77	0.742 66	0.538 91	0.919 36	0.803 67	0.513 100

HPEIN	0.618 89	0.729 74	0.668 97	0.647 94	0.597 73	0.766 92	0.414 84	0.680 82	0.520 81	0.525 72	0.946 67	0.432 78	0.215 79	0.493 92	0.599 87	0.638 78	0.617 104	0.570 70	0.897 52	0.806 65	0.605 71
Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi-Wing Fu, Jiaya Jia: Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation. ICCV 2019
SPH3D-GCN	0.610 90	0.858 26	0.772 50	0.489 112	0.532 92	0.792 82	0.404 88	0.643 92	0.570 69	0.507 81	0.935 90	0.414 89	0.046 116	0.510 87	0.702 72	0.602 88	0.705 81	0.549 84	0.859 84	0.773 90	0.534 95
Huan Lei, Naveed Akhtar, and Ajmal Mian: Spherical Kernel for Efficient Graph Convolution on 3D Point Clouds. TPAMI 2020
AttAN	0.609 91	0.760 60	0.667 98	0.649 93	0.521 94	0.793 80	0.457 64	0.648 90	0.528 79	0.434 99	0.947 64	0.401 92	0.153 105	0.454 97	0.721 68	0.648 72	0.717 75	0.536 92	0.904 45	0.765 92	0.485 104
Gege Zhang, Qinghua Ma, Licheng Jiao, Fang Liu and Qigong Sun: AttAN: Attention Adversarial Networks for 3D Point Cloud Semantic Segmentation. IJCAI2020
wsss-transformer	0.600 92	0.634 98	0.743 71	0.697 78	0.601 72	0.781 85	0.437 79	0.585 99	0.493 89	0.446 94	0.933 95	0.394 93	0.011 118	0.654 44	0.661 82	0.603 87	0.733 70	0.526 94	0.832 90	0.761 94	0.480 105

LAP-D	0.594 93	0.720 80	0.692 91	0.637 98	0.456 103	0.773 90	0.391 95	0.730 71	0.587 59	0.445 96	0.940 84	0.381 96	0.288 41	0.434 100	0.453 101	0.591 92	0.649 97	0.581 68	0.777 98	0.749 98	0.610 67

DPC	0.592 94	0.720 80	0.700 85	0.602 103	0.480 99	0.762 95	0.380 98	0.713 77	0.585 62	0.437 97	0.940 84	0.369 98	0.288 41	0.434 100	0.509 97	0.590 94	0.639 102	0.567 74	0.772 99	0.755 96	0.592 77
Francis Engelmann, Theodora Kontogianni, Bastian Leibe: Dilated Point Convolutions: On the Receptive Field Size of Point Convolutions on 3D Point Clouds. ICRA 2020
CCRFNet	0.589 95	0.766 59	0.659 101	0.683 81	0.470 102	0.740 100	0.387 96	0.620 95	0.490 90	0.476 87	0.922 102	0.355 101	0.245 68	0.511 86	0.511 96	0.571 97	0.643 100	0.493 101	0.872 75	0.762 93	0.600 73

ROSMRF	0.580 96	0.772 54	0.707 81	0.681 82	0.563 85	0.764 93	0.362 100	0.515 107	0.465 98	0.465 91	0.936 89	0.427 84	0.207 82	0.438 98	0.577 89	0.536 100	0.675 92	0.486 102	0.723 105	0.779 86	0.524 97

SD-DETR	0.576 97	0.746 65	0.609 110	0.445 116	0.517 95	0.643 111	0.366 99	0.714 76	0.456 100	0.468 90	0.870 113	0.432 78	0.264 60	0.558 75	0.674 76	0.586 95	0.688 87	0.482 103	0.739 103	0.733 101	0.537 94

SQN_0.1%	0.569 98	0.676 90	0.696 88	0.657 90	0.497 96	0.779 88	0.424 81	0.548 103	0.515 83	0.376 104	0.902 111	0.422 86	0.357 10	0.379 105	0.456 100	0.596 91	0.659 96	0.544 86	0.685 108	0.665 112	0.556 90

TextureNet	0.566 99	0.672 92	0.664 99	0.671 86	0.494 97	0.719 101	0.445 72	0.678 84	0.411 108	0.396 102	0.935 90	0.356 100	0.225 74	0.412 102	0.535 92	0.565 98	0.636 103	0.464 105	0.794 97	0.680 109	0.568 84
Jingwei Huang, Haotian Zhang, Li Yi, Thomas Funkerhouser, Matthias Niessner, Leonidas Guibas: TextureNet: Consistent Local Parametrizations for Learning from High-Resolution Signals on Meshes. CVPR
DVVNet	0.562 100	0.648 95	0.700 85	0.770 59	0.586 78	0.687 105	0.333 104	0.650 89	0.514 84	0.475 88	0.906 108	0.359 99	0.223 76	0.340 107	0.442 102	0.422 111	0.668 94	0.501 98	0.708 106	0.779 86	0.534 95

Pointnet++ & Feature	0.557 101	0.735 70	0.661 100	0.686 80	0.491 98	0.744 99	0.392 93	0.539 104	0.451 101	0.375 105	0.946 67	0.376 97	0.205 84	0.403 103	0.356 107	0.553 99	0.643 100	0.497 99	0.824 93	0.756 95	0.515 98

GMLPs	0.538 102	0.495 112	0.693 90	0.647 94	0.471 101	0.793 80	0.300 107	0.477 108	0.505 86	0.358 106	0.903 110	0.327 104	0.081 113	0.472 95	0.529 94	0.448 109	0.710 76	0.509 95	0.746 101	0.737 100	0.554 91

PanopticFusion-label	0.529 103	0.491 113	0.688 94	0.604 102	0.386 108	0.632 112	0.225 118	0.705 80	0.434 105	0.293 112	0.815 116	0.348 102	0.241 69	0.499 90	0.669 78	0.507 102	0.649 97	0.442 111	0.796 96	0.602 116	0.561 87
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
subcloud_weak	0.516 104	0.676 90	0.591 113	0.609 100	0.442 104	0.774 89	0.335 103	0.597 96	0.422 107	0.357 107	0.932 96	0.341 103	0.094 112	0.298 109	0.528 95	0.473 107	0.676 91	0.495 100	0.602 114	0.721 104	0.349 116

Online SegFusion	0.515 105	0.607 103	0.644 104	0.579 105	0.434 105	0.630 113	0.353 101	0.628 94	0.440 103	0.410 100	0.762 119	0.307 106	0.167 100	0.520 84	0.403 105	0.516 101	0.565 107	0.447 109	0.678 109	0.701 106	0.514 99
Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstroem, Cristian Sminchisescu, Luc van Gool: A Real-Time Learning Framework for Joint 3D Reconstruction and Semantic Segmentation. Robotics and Automation Letters Submission
3DMV, FTSDF	0.501 106	0.558 108	0.608 111	0.424 118	0.478 100	0.690 104	0.246 114	0.586 98	0.468 96	0.450 93	0.911 106	0.394 93	0.160 103	0.438 98	0.212 114	0.432 110	0.541 112	0.475 104	0.742 102	0.727 102	0.477 106

PCNN	0.498 107	0.559 107	0.644 104	0.560 107	0.420 107	0.711 103	0.229 116	0.414 109	0.436 104	0.352 108	0.941 82	0.324 105	0.155 104	0.238 114	0.387 106	0.493 103	0.529 113	0.509 95	0.813 95	0.751 97	0.504 101

3DMV	0.484 108	0.484 114	0.538 116	0.643 96	0.424 106	0.606 116	0.310 105	0.574 100	0.433 106	0.378 103	0.796 117	0.301 107	0.214 80	0.537 82	0.208 115	0.472 108	0.507 116	0.413 114	0.693 107	0.602 116	0.539 93
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
PointCNN with RGB	0.458 109	0.577 106	0.611 109	0.356 120	0.321 116	0.715 102	0.299 109	0.376 113	0.328 116	0.319 110	0.944 76	0.285 109	0.164 101	0.216 117	0.229 112	0.484 105	0.545 111	0.456 107	0.755 100	0.709 105	0.475 107
Yangyan Li, Rui Bu, Mingchao Sun, Baoquan Chen: PointCNN. NeurIPS 2018
FCPN	0.447 110	0.679 89	0.604 112	0.578 106	0.380 109	0.682 106	0.291 110	0.106 120	0.483 93	0.258 118	0.920 103	0.258 113	0.025 117	0.231 116	0.325 108	0.480 106	0.560 109	0.463 106	0.725 104	0.666 111	0.231 120
Dario Rethage, Johanna Wald, Jürgen Sturm, Nassir Navab, Federico Tombari: Fully-Convolutional Point Networks for Large-Scale Point Clouds. ECCV 2018
DGCNN_reproduce	0.446 111	0.474 115	0.623 107	0.463 114	0.366 111	0.651 109	0.310 105	0.389 112	0.349 114	0.330 109	0.937 87	0.271 111	0.126 109	0.285 110	0.224 113	0.350 116	0.577 106	0.445 110	0.625 112	0.723 103	0.394 112
Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E. Sarma, Michael M. Bronstein, Justin M. Solomon: Dynamic Graph CNN for Learning on Point Clouds. TOG 2019
PNET2	0.442 112	0.548 109	0.548 115	0.597 104	0.363 112	0.628 114	0.300 107	0.292 115	0.374 111	0.307 111	0.881 112	0.268 112	0.186 93	0.238 114	0.204 116	0.407 112	0.506 117	0.449 108	0.667 110	0.620 115	0.462 110

SurfaceConvPF	0.442 112	0.505 111	0.622 108	0.380 119	0.342 114	0.654 108	0.227 117	0.397 111	0.367 112	0.276 114	0.924 100	0.240 115	0.198 89	0.359 106	0.262 110	0.366 113	0.581 105	0.435 112	0.640 111	0.668 110	0.398 111
Hao Pan, Shilin Liu, Yang Liu, Xin Tong: Convolutional Neural Networks on 3D Surfaces Using Parallel Frames.
Tangent Convolutions	0.438 114	0.437 117	0.646 103	0.474 113	0.369 110	0.645 110	0.353 101	0.258 117	0.282 119	0.279 113	0.918 105	0.298 108	0.147 108	0.283 111	0.294 109	0.487 104	0.562 108	0.427 113	0.619 113	0.633 114	0.352 115
Maxim Tatarchenko, Jaesik Park, Vladlen Koltun, Qian-Yi Zhou: Tangent convolutions for dense prediction in 3d. CVPR 2018
3DWSSS	0.425 115	0.525 110	0.647 102	0.522 108	0.324 115	0.488 120	0.077 121	0.712 78	0.353 113	0.401 101	0.636 121	0.281 110	0.176 96	0.340 107	0.565 90	0.175 120	0.551 110	0.398 115	0.370 121	0.602 116	0.361 114

SPLAT Net	0.393 116	0.472 116	0.511 117	0.606 101	0.311 117	0.656 107	0.245 115	0.405 110	0.328 116	0.197 119	0.927 99	0.227 117	0.000 121	0.001 122	0.249 111	0.271 119	0.510 114	0.383 117	0.593 115	0.699 107	0.267 118
Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz: SPLATNet: Sparse Lattice Networks for Point Cloud Processing. CVPR 2018
ScanNet+FTSDF	0.383 117	0.297 119	0.491 118	0.432 117	0.358 113	0.612 115	0.274 112	0.116 119	0.411 108	0.265 115	0.904 109	0.229 116	0.079 114	0.250 112	0.185 117	0.320 117	0.510 114	0.385 116	0.548 116	0.597 119	0.394 112

PointNet++	0.339 118	0.584 105	0.478 119	0.458 115	0.256 119	0.360 121	0.250 113	0.247 118	0.278 120	0.261 117	0.677 120	0.183 118	0.117 110	0.212 118	0.145 119	0.364 114	0.346 121	0.232 121	0.548 116	0.523 120	0.252 119
Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas: pointnet++: deep hierarchical feature learning on point sets in a metric space.
GrowSP++	0.323 119	0.114 121	0.589 114	0.499 110	0.147 121	0.555 117	0.290 111	0.336 114	0.290 118	0.262 116	0.865 115	0.102 121	0.000 121	0.037 120	0.000 122	0.000 122	0.462 118	0.381 118	0.389 120	0.664 113	0.473 108

SSC-UNet	0.308 120	0.353 118	0.290 121	0.278 121	0.166 120	0.553 118	0.169 120	0.286 116	0.147 121	0.148 121	0.908 107	0.182 119	0.064 115	0.023 121	0.018 121	0.354 115	0.363 119	0.345 119	0.546 118	0.685 108	0.278 117

ScanNet	0.306 121	0.203 120	0.366 120	0.501 109	0.311 117	0.524 119	0.211 119	0.002 122	0.342 115	0.189 120	0.786 118	0.145 120	0.102 111	0.245 113	0.152 118	0.318 118	0.348 120	0.300 120	0.460 119	0.437 121	0.182 121
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17
ERROR	0.054 122	0.000 122	0.041 122	0.172 122	0.030 122	0.062 123	0.001 122	0.035 121	0.004 122	0.051 122	0.143 122	0.019 122	0.003 120	0.041 119	0.050 120	0.003 121	0.054 122	0.018 122	0.005 123	0.264 122	0.082 122

MVF-GNN	0.014 123	0.000 122	0.000 123	0.000 123	0.007 123	0.086 122	0.000 123	0.000 123	0.001 123	0.000 123	0.029 123	0.001 123	0.000 121	0.000 123	0.000 122	0.000 122	0.000 123	0.018 122	0.015 122	0.115 123	0.000 123

This table lists the benchmark results for the 3D semantic instance scenario.

Method	avg ap 50%	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

Competitor-MAFT	0.816 1	1.000 1	0.983 3	0.872 10	0.718 5	0.941 1	0.588 4	0.652 39	0.819 2	0.776 3	0.720 5	0.780 5	0.769 12	1.000 1	0.797 11	0.813 29	0.798 8	1.000 1	0.659 4

PointRel	0.816 1	1.000 1	0.971 8	0.908 6	0.743 2	0.923 8	0.573 8	0.714 22	0.695 18	0.734 10	0.747 2	0.725 12	0.809 1	1.000 1	0.814 9	0.899 3	0.820 4	1.000 1	0.610 18
: Relation3D: Enhancing Relation Modeling for Point Cloud Instance Segmentation. CVPR 2025
Spherical Mask(CtoF)	0.812 3	1.000 1	0.973 7	0.852 14	0.718 6	0.917 10	0.574 6	0.677 30	0.748 11	0.729 14	0.715 8	0.795 2	0.809 1	1.000 1	0.831 4	0.854 9	0.787 12	1.000 1	0.638 7

EV3D	0.811 4	1.000 1	0.968 9	0.852 14	0.717 7	0.921 9	0.574 7	0.677 30	0.748 11	0.730 13	0.703 13	0.795 2	0.809 1	1.000 1	0.831 4	0.854 9	0.778 16	1.000 1	0.638 8

SIM3D	0.803 5	1.000 1	0.967 10	0.863 13	0.692 19	0.924 7	0.552 12	0.732 21	0.667 23	0.732 12	0.662 17	0.796 1	0.789 9	1.000 1	0.803 10	0.864 6	0.766 21	1.000 1	0.643 6

OneFormer3D	0.801 6	1.000 1	0.973 6	0.909 5	0.698 15	0.928 5	0.582 5	0.668 35	0.685 19	0.780 2	0.687 15	0.698 20	0.702 15	1.000 1	0.794 13	0.900 2	0.784 14	0.986 53	0.635 9
Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: OneFormer3D: One Transformer for Unified Point Cloud Segmentation.
UniPerception	0.800 7	1.000 1	0.930 12	0.872 10	0.727 4	0.862 25	0.454 20	0.764 13	0.820 1	0.746 7	0.706 11	0.750 7	0.772 10	0.926 47	0.764 19	0.818 27	0.826 2	0.997 40	0.660 3

Competitor-SPFormer	0.800 7	1.000 1	0.986 2	0.845 16	0.705 13	0.915 11	0.532 14	0.733 20	0.757 10	0.733 11	0.708 10	0.698 19	0.648 37	0.981 40	0.890 1	0.830 19	0.796 9	0.997 40	0.644 5

InsSSM	0.799 9	1.000 1	0.915 14	0.710 42	0.729 3	0.925 6	0.664 1	0.670 33	0.770 7	0.766 4	0.739 3	0.737 8	0.700 16	1.000 1	0.792 14	0.829 21	0.815 5	0.997 40	0.625 11
Lei Yao, Yi Wang, Moyun Liu, Lap-Pui Chau: SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation. TCSVT, 2024
DCD	0.798 10	1.000 1	0.878 21	0.792 28	0.693 18	0.936 2	0.596 2	0.685 29	0.663 25	0.736 8	0.717 6	0.788 4	0.693 21	1.000 1	0.825 7	0.840 15	0.837 1	1.000 1	0.689 1

TST3D	0.795 11	1.000 1	0.929 13	0.918 4	0.709 10	0.884 20	0.596 3	0.704 25	0.769 8	0.734 9	0.644 22	0.699 18	0.751 13	1.000 1	0.794 12	0.876 5	0.757 24	0.997 40	0.550 34
Duc Tran Dang Trung, Byeongkeun Kang, Yeejin Lee: MSTA3D: Multi-scale Twin-attention for 3D Instance Segmentation. ACM Multimedia 2024
MG-Former	0.791 12	1.000 1	0.980 5	0.837 19	0.626 27	0.897 13	0.543 13	0.759 15	0.800 6	0.766 5	0.659 18	0.769 6	0.697 19	1.000 1	0.791 15	0.707 50	0.791 11	1.000 1	0.610 17

ExtMask3D	0.789 13	1.000 1	0.988 1	0.756 35	0.706 12	0.912 12	0.429 21	0.647 41	0.806 5	0.755 6	0.673 16	0.689 21	0.772 11	1.000 1	0.789 16	0.852 11	0.811 6	1.000 1	0.617 14

Queryformer	0.787 14	1.000 1	0.933 11	0.601 52	0.754 1	0.886 18	0.558 11	0.661 37	0.767 9	0.665 20	0.716 7	0.639 27	0.808 5	1.000 1	0.844 3	0.897 4	0.804 7	1.000 1	0.624 12

MAFT	0.786 15	1.000 1	0.894 19	0.807 23	0.694 17	0.893 16	0.486 16	0.674 32	0.740 13	0.786 1	0.704 12	0.727 11	0.739 14	1.000 1	0.707 26	0.849 13	0.756 25	1.000 1	0.685 2

KmaxOneFormerNet	0.783 16	0.903 57	0.981 4	0.794 27	0.706 11	0.931 4	0.561 10	0.701 26	0.706 16	0.727 15	0.697 14	0.731 10	0.689 23	1.000 1	0.856 2	0.750 41	0.761 23	1.000 1	0.599 22

Mask3D	0.780 17	1.000 1	0.786 45	0.716 40	0.696 16	0.885 19	0.500 15	0.714 22	0.810 4	0.672 19	0.715 8	0.679 22	0.809 1	1.000 1	0.831 4	0.833 18	0.787 12	1.000 1	0.602 20
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
SPFormer	0.770 18	0.903 57	0.903 16	0.806 24	0.609 34	0.886 17	0.568 9	0.815 6	0.705 17	0.711 16	0.655 19	0.652 26	0.685 24	1.000 1	0.789 17	0.809 30	0.776 18	1.000 1	0.583 26
Sun Jiahao, Qing Chunmei, Tan Junpeng, Xu Xiangmin: Superpoint Transformer for 3D Scene Instance Segmentation. AAAI 2023 [Oral]
SoftGroup++	0.769 19	1.000 1	0.803 38	0.937 1	0.684 20	0.865 22	0.213 37	0.870 2	0.664 24	0.571 27	0.758 1	0.702 16	0.807 6	1.000 1	0.653 33	0.902 1	0.792 10	1.000 1	0.626 10

SoftGroup	0.761 20	1.000 1	0.808 34	0.845 16	0.716 8	0.862 24	0.243 34	0.824 4	0.655 27	0.620 21	0.734 4	0.699 17	0.791 8	0.981 40	0.716 23	0.844 14	0.769 19	1.000 1	0.594 24
Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo: SoftGroup for 3D Instance Segmentaiton on Point Clouds. CVPR 2022 [Oral]
ISBNet	0.757 21	1.000 1	0.904 15	0.731 38	0.678 21	0.895 14	0.458 18	0.644 43	0.670 22	0.710 17	0.620 27	0.732 9	0.650 27	1.000 1	0.756 20	0.778 33	0.779 15	1.000 1	0.614 15
Tuan Duc Ngo, Binh-Son Hua, Khoi Nguyen: ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution. CVPR 2023
TD3D	0.751 22	1.000 1	0.774 46	0.867 12	0.621 29	0.934 3	0.404 22	0.706 24	0.812 3	0.605 24	0.633 25	0.626 28	0.690 22	1.000 1	0.640 35	0.820 24	0.777 17	1.000 1	0.612 16
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
PBNet	0.747 23	1.000 1	0.818 30	0.837 20	0.713 9	0.844 27	0.457 19	0.647 41	0.711 15	0.614 22	0.617 29	0.657 25	0.650 27	1.000 1	0.692 27	0.822 23	0.765 22	1.000 1	0.595 23
Weiguang Zhao, Yuyao Yan, Chaolong Yang, Jianan Ye, Xi Yang, Kaizhu Huang: Divide and Conquer: 3D Instance Segmentation With Point-Wise Binarization. ICCV 2023
GraphCut	0.732 24	1.000 1	0.788 43	0.724 39	0.642 26	0.859 26	0.248 33	0.787 11	0.618 30	0.596 25	0.653 21	0.722 14	0.583 49	1.000 1	0.766 18	0.861 7	0.825 3	1.000 1	0.504 40

IPCA-Inst	0.731 25	1.000 1	0.788 44	0.884 9	0.698 14	0.788 43	0.252 32	0.760 14	0.646 28	0.511 35	0.637 24	0.665 24	0.804 7	1.000 1	0.644 34	0.778 34	0.747 27	1.000 1	0.561 30

TopoSeg	0.725 26	1.000 1	0.806 37	0.933 2	0.668 23	0.758 48	0.272 31	0.734 19	0.630 29	0.549 31	0.654 20	0.606 29	0.697 20	0.966 44	0.612 39	0.839 16	0.754 26	1.000 1	0.573 27

DKNet	0.718 27	1.000 1	0.814 31	0.782 29	0.619 31	0.872 21	0.224 35	0.751 17	0.569 34	0.677 18	0.585 34	0.724 13	0.633 39	0.981 40	0.515 49	0.819 25	0.736 28	1.000 1	0.617 13
Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong: 3D Instances as 1D Kernels. ECCV 2022
SSEC	0.707 28	1.000 1	0.850 23	0.924 3	0.648 24	0.747 51	0.162 39	0.862 3	0.572 33	0.520 33	0.624 26	0.549 32	0.649 36	1.000 1	0.560 44	0.706 51	0.768 20	1.000 1	0.591 25

HAIS	0.699 29	1.000 1	0.849 24	0.820 21	0.675 22	0.808 37	0.279 29	0.757 16	0.465 40	0.517 34	0.596 31	0.559 31	0.600 43	1.000 1	0.654 32	0.767 36	0.676 32	0.994 49	0.560 31
Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang: Hierarchical Aggregation for 3D Instance Segmentation. ICCV 2021
SSTNet	0.698 30	1.000 1	0.697 62	0.888 8	0.556 41	0.803 38	0.387 23	0.626 45	0.417 45	0.556 30	0.585 35	0.702 15	0.600 43	1.000 1	0.824 8	0.720 49	0.692 30	1.000 1	0.509 39
Zhihao Liang, Zhihao Li, Songcen Xu, Mingkui Tan, Kui Jia: Instance Segmentation in 3D Scenes using Semantic Superpoint Tree Networks. ICCV2021
DualGroup	0.694 31	1.000 1	0.799 40	0.811 22	0.622 28	0.817 32	0.376 24	0.805 9	0.590 32	0.487 39	0.568 38	0.525 36	0.650 27	0.835 57	0.600 40	0.829 20	0.655 35	1.000 1	0.526 36

ODIN - Ins	0.693 32	1.000 1	0.880 20	0.647 47	0.620 30	0.779 45	0.336 26	0.501 60	0.681 20	0.577 26	0.595 32	0.679 23	0.683 25	1.000 1	0.709 25	0.816 28	0.637 39	0.770 69	0.557 32
Ayush Jain, Pushkal Katara, Nikolaos Gkanatsios, Adam W. Harley, Gabriel Sarch, Kriti Aggarwal, Vishrav Chaudhary, Katerina Fragkiadaki: ODIN: A Single Model for 2D and 3D Segmentation. CVPR 2024
DANCENET	0.680 33	1.000 1	0.807 35	0.733 37	0.600 35	0.768 47	0.375 25	0.543 53	0.538 35	0.610 23	0.599 30	0.498 37	0.632 41	0.981 40	0.739 22	0.856 8	0.633 42	0.882 64	0.454 49

SphereSeg	0.680 33	1.000 1	0.856 22	0.744 36	0.618 32	0.893 15	0.151 40	0.651 40	0.713 14	0.537 32	0.579 37	0.430 46	0.651 26	1.000 1	0.389 60	0.744 44	0.697 29	0.991 51	0.601 21

Box2Mask	0.677 35	1.000 1	0.847 25	0.771 31	0.509 50	0.816 33	0.277 30	0.558 52	0.482 37	0.562 29	0.640 23	0.448 42	0.700 16	1.000 1	0.666 28	0.852 12	0.578 49	0.997 40	0.488 44
Julian Chibane, Francis Engelmann, Tuan Anh Tran, Gerard Pons-Moll: Box2Mask: Weakly Supervised 3D Semantic Instance Segmentation Using Bounding Boxes. ECCV 2022
OccuSeg+instance	0.672 36	1.000 1	0.758 54	0.682 44	0.576 39	0.842 28	0.477 17	0.504 59	0.524 36	0.567 28	0.585 36	0.451 41	0.557 51	1.000 1	0.751 21	0.797 31	0.563 52	1.000 1	0.467 48
Lei Han, Tian Zheng, Lan Xu, Lu Fang: OccuSeg: Occupancy-aware 3D Instance Segmentation. CVPR2020
Mask-Group	0.664 37	1.000 1	0.822 29	0.764 34	0.616 33	0.815 34	0.139 44	0.694 28	0.597 31	0.459 43	0.566 39	0.599 30	0.600 43	0.516 67	0.715 24	0.819 26	0.635 40	1.000 1	0.603 19
Min Zhong, Xinghao Chen, Xiaokang Chen, Gang Zeng, Yunhe Wang: MaskGroup: Hierarchical Point Grouping and Masking for 3D Instance Segmentation. ICME 2022
INS-Conv-instance	0.657 38	1.000 1	0.760 52	0.667 46	0.581 37	0.863 23	0.323 27	0.655 38	0.477 38	0.473 41	0.549 41	0.432 45	0.650 27	1.000 1	0.655 31	0.738 45	0.585 48	0.944 56	0.472 47

CSC-Pretrained	0.648 39	1.000 1	0.810 32	0.768 32	0.523 48	0.813 35	0.143 43	0.819 5	0.389 48	0.422 52	0.511 45	0.443 43	0.650 27	1.000 1	0.624 37	0.732 46	0.634 41	1.000 1	0.375 56

PE	0.645 40	1.000 1	0.773 48	0.798 26	0.538 43	0.786 44	0.088 52	0.799 10	0.350 52	0.435 50	0.547 42	0.545 33	0.646 38	0.933 46	0.562 43	0.761 39	0.556 57	0.997 40	0.501 42
Biao Zhang, Peter Wonka: Point Cloud Instance Segmentation using Probabilistic Embeddings. CVPR 2021
RPGN	0.643 41	1.000 1	0.758 53	0.582 58	0.539 42	0.826 31	0.046 57	0.765 12	0.372 50	0.436 49	0.588 33	0.539 35	0.650 27	1.000 1	0.577 41	0.750 42	0.653 37	0.997 40	0.495 43
Shichao Dong, Guosheng Lin, Tzu-Yi Hung: Learning Regional Purity for Instance Segmentation on 3D Point Clouds. ECCV 2022
Dyco3D	0.641 42	1.000 1	0.841 26	0.893 7	0.531 45	0.802 39	0.115 49	0.588 50	0.448 42	0.438 47	0.537 44	0.430 47	0.550 52	0.857 49	0.534 47	0.764 38	0.657 34	0.987 52	0.568 28
Tong He; Chunhua Shen; Anton van den Hengel: DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution. CVPR2021
GICN	0.638 43	1.000 1	0.895 18	0.800 25	0.480 54	0.676 56	0.144 42	0.737 18	0.354 51	0.447 44	0.400 58	0.365 53	0.700 16	1.000 1	0.569 42	0.836 17	0.599 44	1.000 1	0.473 46

PointGroup	0.636 44	1.000 1	0.765 49	0.624 49	0.505 52	0.797 40	0.116 48	0.696 27	0.384 49	0.441 45	0.559 40	0.476 39	0.596 46	1.000 1	0.666 28	0.756 40	0.556 56	0.997 40	0.513 38
Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia: PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation. CVPR 2020 [oral]
DD-UNet+Group	0.635 45	0.667 60	0.797 42	0.714 41	0.562 40	0.774 46	0.146 41	0.810 8	0.429 44	0.476 40	0.546 43	0.399 49	0.633 39	1.000 1	0.632 36	0.722 48	0.609 43	1.000 1	0.514 37
H. Liu, R. Liu, K. Yang, J. Zhang, K. Peng, R. Stiefelhagen: HIDA: Towards Holistic Indoor Understanding for the Visually Impaired via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor. ICCVW 2021
Mask3D_evaluation	0.631 46	1.000 1	0.829 28	0.606 51	0.646 25	0.836 29	0.068 53	0.511 57	0.462 41	0.507 36	0.619 28	0.389 51	0.610 42	1.000 1	0.432 55	0.828 22	0.673 33	0.788 68	0.552 33

DENet	0.629 47	1.000 1	0.797 41	0.608 50	0.589 36	0.627 60	0.219 36	0.882 1	0.310 54	0.402 57	0.383 60	0.396 50	0.650 27	1.000 1	0.663 30	0.543 68	0.691 31	1.000 1	0.568 29

3D-MPA	0.611 48	1.000 1	0.833 27	0.765 33	0.526 47	0.756 49	0.136 46	0.588 50	0.470 39	0.438 48	0.432 54	0.358 55	0.650 27	0.857 49	0.429 56	0.765 37	0.557 55	1.000 1	0.430 51
Francis Engelmann, Martin Bokeloh, Alireza Fathi, Bastian Leibe, Matthias Nießner: 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation. CVPR 2020
OSIS	0.605 49	1.000 1	0.801 39	0.599 53	0.535 44	0.728 53	0.286 28	0.436 64	0.679 21	0.491 37	0.433 52	0.256 57	0.404 64	0.857 49	0.620 38	0.724 47	0.510 62	1.000 1	0.539 35

AOIA	0.601 50	1.000 1	0.761 51	0.687 43	0.485 53	0.828 30	0.008 64	0.663 36	0.405 47	0.405 56	0.425 55	0.490 38	0.596 46	0.714 60	0.553 46	0.779 32	0.597 45	0.992 50	0.424 53

PCJC	0.578 51	1.000 1	0.810 33	0.583 57	0.449 57	0.813 36	0.042 58	0.603 48	0.341 53	0.490 38	0.465 49	0.410 48	0.650 27	0.835 57	0.264 66	0.694 55	0.561 53	0.889 61	0.504 41

SSEN	0.575 52	1.000 1	0.761 50	0.473 60	0.477 55	0.795 41	0.066 54	0.529 55	0.658 26	0.460 42	0.461 50	0.380 52	0.331 66	0.859 48	0.401 59	0.692 57	0.653 36	1.000 1	0.348 58
Dongsu Zhang, Junha Chun, Sang Kyun Cha, Young Min Kim: Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with Deep Metric Learning. Arxiv
RWSeg	0.567 53	0.528 70	0.708 61	0.626 48	0.580 38	0.745 52	0.063 55	0.627 44	0.240 58	0.400 58	0.497 46	0.464 40	0.515 53	1.000 1	0.475 51	0.745 43	0.571 50	1.000 1	0.429 52

NeuralBF	0.555 54	0.667 60	0.896 17	0.843 18	0.517 49	0.751 50	0.029 59	0.519 56	0.414 46	0.439 46	0.465 48	0.000 76	0.484 55	0.857 49	0.287 64	0.693 56	0.651 38	1.000 1	0.485 45
Weiwei Sun, Daniel Rebain, Renjie Liao, Vladimir Tankovich, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi: NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation on Point Clouds. WACV 2023
MTML	0.549 55	1.000 1	0.807 36	0.588 56	0.327 62	0.647 58	0.004 66	0.815 7	0.180 61	0.418 53	0.364 62	0.182 60	0.445 58	1.000 1	0.442 54	0.688 58	0.571 51	1.000 1	0.396 54
Jean Lahoud, Bernard Ghanem, Marc Pollefeys, Martin R. Oswald: 3D Instance Segmentation via Multi-task Metric Learning. ICCV 2019 [oral]
ClickSeg_Instance	0.539 56	1.000 1	0.621 65	0.300 63	0.530 46	0.698 54	0.127 47	0.533 54	0.222 59	0.430 51	0.400 57	0.365 53	0.574 50	0.938 45	0.472 52	0.659 60	0.543 58	0.944 56	0.347 59

One_Thing_One_Click	0.529 57	0.667 60	0.718 57	0.777 30	0.399 58	0.683 55	0.000 69	0.669 34	0.138 64	0.391 59	0.374 61	0.539 34	0.360 65	0.641 64	0.556 45	0.774 35	0.593 46	0.997 40	0.251 64
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
Sparse R-CNN	0.515 58	1.000 1	0.538 70	0.282 64	0.468 56	0.790 42	0.173 38	0.345 66	0.429 43	0.413 55	0.484 47	0.176 61	0.595 48	0.591 65	0.522 48	0.668 59	0.476 63	0.986 54	0.327 60

Occipital-SCS	0.512 59	1.000 1	0.716 58	0.509 59	0.506 51	0.611 61	0.092 51	0.602 49	0.177 62	0.346 62	0.383 59	0.165 62	0.442 59	0.850 56	0.386 61	0.618 64	0.543 59	0.889 61	0.389 55

3D-BoNet	0.488 60	1.000 1	0.672 64	0.590 55	0.301 64	0.484 71	0.098 50	0.620 46	0.306 55	0.341 63	0.259 66	0.125 64	0.434 61	0.796 59	0.402 58	0.499 70	0.513 61	0.909 60	0.439 50
Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen Wang, Andrew Markham, Niki Trigoni: Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds. NeurIPS 2019 Spotlight
PanopticFusion-inst	0.478 61	0.667 60	0.712 60	0.595 54	0.259 67	0.550 67	0.000 69	0.613 47	0.175 63	0.250 68	0.434 51	0.437 44	0.411 63	0.857 49	0.485 50	0.591 67	0.267 73	0.944 56	0.359 57
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
SPG_WSIS	0.470 62	0.667 60	0.685 63	0.677 45	0.372 60	0.562 65	0.000 69	0.482 61	0.244 57	0.316 65	0.298 63	0.052 71	0.442 60	0.857 49	0.267 65	0.702 52	0.559 54	1.000 1	0.287 62

SALoss-ResNet	0.459 63	1.000 1	0.737 56	0.159 74	0.259 66	0.587 63	0.138 45	0.475 62	0.217 60	0.416 54	0.408 56	0.128 63	0.315 67	0.714 60	0.411 57	0.536 69	0.590 47	0.873 65	0.304 61
Zhidong Liang, Ming Yang, Hao Li, Chunxiang Wang: 3D Instance Embedding Learning With a Structure-Aware Loss Function for Point Cloud Segmentation. IEEE Robotics and Automation Letters (IROS2020)
MASC	0.447 64	0.528 70	0.555 68	0.381 61	0.382 59	0.633 59	0.002 67	0.509 58	0.260 56	0.361 61	0.432 53	0.327 56	0.451 57	0.571 66	0.367 62	0.639 62	0.386 64	0.980 55	0.276 63
Chen Liu, Yasutaka Furukawa: MASC: Multi-scale Affinity with Sparse Convolution for 3D Instance Segmentation.
SegGroup_ins	0.445 65	0.667 60	0.773 47	0.185 71	0.317 63	0.656 57	0.000 69	0.407 65	0.134 65	0.381 60	0.267 65	0.217 59	0.476 56	0.714 60	0.452 53	0.629 63	0.514 60	1.000 1	0.222 67
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
3D-SIS	0.382 66	1.000 1	0.432 73	0.245 66	0.190 68	0.577 64	0.013 63	0.263 68	0.033 71	0.320 64	0.240 67	0.075 67	0.422 62	0.857 49	0.117 71	0.699 53	0.271 72	0.883 63	0.235 66
Ji Hou, Angela Dai, Matthias Niessner: 3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. CVPR 2019
Hier3D	0.323 67	0.667 60	0.542 69	0.264 65	0.157 71	0.550 66	0.000 69	0.205 71	0.009 73	0.270 67	0.218 68	0.075 67	0.500 54	0.688 63	0.007 77	0.698 54	0.301 69	0.459 74	0.200 68
Tan: HCFS3D: Hierarchical Coupled Feature Selection Network for 3D Semantic and Instance Segmentation.
UNet-backbone	0.319 68	0.667 60	0.715 59	0.233 67	0.189 69	0.479 72	0.008 64	0.218 69	0.067 70	0.201 70	0.173 69	0.107 65	0.123 72	0.438 68	0.150 68	0.615 65	0.355 65	0.916 59	0.093 76

R-PointNet	0.306 69	0.500 72	0.405 74	0.311 62	0.348 61	0.589 62	0.054 56	0.068 74	0.126 66	0.283 66	0.290 64	0.028 72	0.219 70	0.214 71	0.331 63	0.396 74	0.275 70	0.821 67	0.245 65

Region-18class	0.284 70	0.250 76	0.751 55	0.228 69	0.270 65	0.521 68	0.000 69	0.468 63	0.008 75	0.205 69	0.127 70	0.000 76	0.068 74	0.070 75	0.262 67	0.652 61	0.323 67	0.740 70	0.173 69

SemRegionNet-20cls	0.250 71	0.333 73	0.613 66	0.229 68	0.163 70	0.493 69	0.000 69	0.304 67	0.107 67	0.147 73	0.100 72	0.052 70	0.231 68	0.119 73	0.039 73	0.445 72	0.325 66	0.654 71	0.141 72

tmp	0.248 72	0.667 60	0.437 72	0.188 70	0.153 72	0.491 70	0.000 69	0.208 70	0.094 69	0.153 72	0.099 73	0.057 69	0.217 71	0.119 73	0.039 73	0.466 71	0.302 68	0.640 72	0.140 73

3D-BEVIS	0.248 72	0.667 60	0.566 67	0.076 75	0.035 77	0.394 75	0.027 61	0.035 76	0.098 68	0.099 75	0.030 76	0.025 73	0.098 73	0.375 70	0.126 70	0.604 66	0.181 75	0.854 66	0.171 70
Cathrin Elich, Francis Engelmann, Jonas Schult, Theodora Kontogianni, Bastian Leibe: 3D-BEVIS: Birds-Eye-View Instance Segmentation.
Sem_Recon_ins	0.227 74	0.764 59	0.486 71	0.069 76	0.098 74	0.426 74	0.017 62	0.067 75	0.015 72	0.172 71	0.100 71	0.096 66	0.054 76	0.183 72	0.135 69	0.366 75	0.260 74	0.614 73	0.168 71

ASIS	0.199 75	0.333 73	0.253 76	0.167 73	0.140 73	0.438 73	0.000 69	0.177 72	0.008 74	0.121 74	0.069 74	0.004 75	0.231 69	0.429 69	0.036 75	0.445 73	0.273 71	0.333 76	0.119 75

Sgpn_scannet	0.143 76	0.208 77	0.390 75	0.169 72	0.065 75	0.275 76	0.029 60	0.069 73	0.000 76	0.087 76	0.043 75	0.014 74	0.027 77	0.000 76	0.112 72	0.351 76	0.168 76	0.438 75	0.138 74

MaskRCNN 2d->3d Proj	0.058 77	0.333 73	0.002 77	0.000 77	0.053 76	0.002 77	0.002 68	0.021 77	0.000 76	0.045 77	0.024 77	0.238 58	0.065 75	0.000 76	0.014 76	0.107 77	0.020 77	0.110 77	0.006 77

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

Virtual MVFusion (R)	0.745 1	0.861 1	0.839 1	0.881 1	0.672 2	0.512 1	0.422 18	0.898 1	0.723 1	0.714 1	0.954 2	0.454 1	0.509 1	0.773 1	0.895 1	0.756 1	0.820 1	0.653 1	0.935 1	0.891 1	0.728 1
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
BPNet_2D	0.670 2	0.822 3	0.795 3	0.836 2	0.659 3	0.481 2	0.451 14	0.769 4	0.656 3	0.567 4	0.931 3	0.395 6	0.390 5	0.700 4	0.534 4	0.689 11	0.770 2	0.574 3	0.865 10	0.831 3	0.675 5
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia and Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
CU-Hybrid-2D Net	0.636 3	0.825 2	0.820 2	0.179 24	0.648 4	0.463 3	0.549 2	0.742 8	0.676 2	0.628 2	0.961 1	0.420 2	0.379 6	0.684 8	0.381 19	0.732 3	0.723 3	0.599 2	0.827 17	0.851 2	0.634 8

MVF-GNN（2D）	0.636 3	0.606 15	0.794 4	0.434 16	0.688 1	0.337 8	0.464 13	0.798 3	0.632 5	0.589 3	0.908 9	0.420 2	0.329 13	0.743 2	0.594 2	0.738 2	0.676 5	0.527 4	0.906 2	0.818 6	0.715 3

CMX	0.613 5	0.681 9	0.725 12	0.502 12	0.634 6	0.297 18	0.478 11	0.830 2	0.651 4	0.537 7	0.924 4	0.375 7	0.315 15	0.686 7	0.451 14	0.714 5	0.543 22	0.504 6	0.894 7	0.823 5	0.688 4

DMMF_3d	0.605 6	0.651 10	0.744 10	0.782 3	0.637 5	0.387 4	0.536 4	0.732 9	0.590 7	0.540 6	0.856 22	0.359 11	0.306 16	0.596 15	0.539 3	0.627 21	0.706 4	0.497 8	0.785 22	0.757 20	0.476 23

EMSANet	0.600 7	0.716 4	0.746 9	0.395 19	0.614 9	0.382 5	0.523 5	0.713 12	0.571 11	0.503 10	0.922 7	0.404 5	0.397 4	0.655 9	0.400 16	0.626 22	0.663 6	0.469 13	0.900 4	0.827 4	0.577 15
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
MCA-Net	0.595 8	0.533 21	0.756 8	0.746 4	0.590 10	0.334 10	0.506 8	0.670 16	0.587 8	0.500 12	0.905 11	0.366 10	0.352 9	0.601 14	0.506 8	0.669 17	0.648 9	0.501 7	0.839 16	0.769 16	0.516 22

RFBNet	0.592 9	0.616 12	0.758 7	0.659 5	0.581 11	0.330 11	0.469 12	0.655 19	0.543 14	0.524 8	0.924 4	0.355 13	0.336 11	0.572 18	0.479 10	0.671 15	0.648 9	0.480 10	0.814 20	0.814 7	0.614 11

FAN_NV_RVC	0.586 10	0.510 22	0.764 6	0.079 27	0.620 8	0.330 11	0.494 9	0.753 6	0.573 9	0.556 5	0.884 17	0.405 4	0.303 17	0.718 3	0.452 13	0.672 14	0.658 7	0.509 5	0.898 5	0.813 8	0.727 2

WSGFormer	0.585 11	0.706 5	0.708 17	0.434 16	0.574 13	0.283 21	0.538 3	0.759 5	0.542 16	0.482 16	0.924 4	0.351 15	0.333 12	0.614 11	0.393 17	0.692 10	0.551 21	0.461 14	0.874 9	0.809 9	0.673 6

DCRedNet	0.583 12	0.682 8	0.723 13	0.542 11	0.510 21	0.310 15	0.451 14	0.668 17	0.549 13	0.520 9	0.920 8	0.375 7	0.446 2	0.528 21	0.417 15	0.670 16	0.577 18	0.478 11	0.862 11	0.806 10	0.628 10

MIX6D_RVC	0.582 13	0.695 6	0.687 18	0.225 22	0.632 7	0.328 13	0.550 1	0.748 7	0.623 6	0.494 15	0.890 15	0.350 16	0.254 24	0.688 6	0.454 12	0.716 4	0.597 17	0.489 9	0.881 8	0.768 17	0.575 16

SSMA	0.577 14	0.695 6	0.716 15	0.439 14	0.563 15	0.314 14	0.444 16	0.719 10	0.551 12	0.503 10	0.887 16	0.346 17	0.348 10	0.603 13	0.353 21	0.709 6	0.600 15	0.457 15	0.901 3	0.786 12	0.599 14
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
DMMF	0.567 15	0.623 11	0.767 5	0.238 21	0.571 14	0.347 6	0.413 20	0.719 10	0.472 21	0.418 23	0.895 14	0.357 12	0.260 23	0.696 5	0.523 7	0.666 18	0.642 11	0.437 19	0.895 6	0.793 11	0.603 13

UNIV_CNP_RVC_UE	0.566 16	0.569 20	0.686 20	0.435 15	0.524 18	0.294 19	0.421 19	0.712 13	0.543 14	0.463 18	0.872 18	0.320 18	0.363 8	0.611 12	0.477 11	0.686 12	0.627 12	0.443 18	0.862 11	0.775 15	0.639 7

EMSAFormer	0.564 17	0.581 17	0.736 11	0.564 10	0.546 17	0.219 24	0.517 6	0.675 15	0.486 20	0.427 22	0.904 12	0.352 14	0.320 14	0.589 16	0.528 5	0.708 7	0.464 25	0.413 23	0.847 15	0.786 12	0.611 12

SN_RN152pyrx8_RVC	0.546 18	0.572 18	0.663 22	0.638 7	0.518 19	0.298 17	0.366 25	0.633 22	0.510 18	0.446 20	0.864 20	0.296 21	0.267 20	0.542 20	0.346 22	0.704 8	0.575 19	0.431 20	0.853 14	0.766 18	0.630 9

UDSSEG_RVC	0.545 19	0.610 14	0.661 23	0.588 8	0.556 16	0.268 22	0.482 10	0.642 21	0.572 10	0.475 17	0.836 24	0.312 19	0.367 7	0.630 10	0.189 24	0.639 20	0.495 24	0.452 16	0.826 18	0.756 21	0.541 18

segfomer with 6d	0.542 20	0.594 16	0.687 18	0.146 25	0.579 12	0.308 16	0.515 7	0.703 14	0.472 21	0.498 13	0.868 19	0.369 9	0.282 18	0.589 16	0.390 18	0.701 9	0.556 20	0.416 22	0.860 13	0.759 19	0.539 20

FuseNet	0.535 21	0.570 19	0.681 21	0.182 23	0.512 20	0.290 20	0.431 17	0.659 18	0.504 19	0.495 14	0.903 13	0.308 20	0.428 3	0.523 22	0.365 20	0.676 13	0.621 14	0.470 12	0.762 23	0.779 14	0.541 18
Caner Hazirbas, Lingni Ma, Csaba Domokos, Daniel Cremers: FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. ACCV 2016
AdapNet++	0.503 22	0.613 13	0.722 14	0.418 18	0.358 27	0.337 8	0.370 24	0.479 25	0.443 23	0.368 25	0.907 10	0.207 24	0.213 26	0.464 25	0.525 6	0.618 23	0.657 8	0.450 17	0.788 21	0.721 24	0.408 26
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
3DMV (2d proj)	0.498 23	0.481 25	0.612 24	0.579 9	0.456 23	0.343 7	0.384 22	0.623 23	0.525 17	0.381 24	0.845 23	0.254 23	0.264 22	0.557 19	0.182 25	0.581 25	0.598 16	0.429 21	0.760 24	0.661 26	0.446 25
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
MSeg1080_RVC	0.485 24	0.505 23	0.709 16	0.092 26	0.427 24	0.241 23	0.411 21	0.654 20	0.385 27	0.457 19	0.861 21	0.053 27	0.279 19	0.503 23	0.481 9	0.645 19	0.626 13	0.365 25	0.748 25	0.725 23	0.529 21
John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun: MSeg: A Composite Dataset for Multi-domain Semantic Segmentation. CVPR 2020
ILC-PSPNet	0.475 25	0.490 24	0.581 25	0.289 20	0.507 22	0.067 27	0.379 23	0.610 24	0.417 25	0.435 21	0.822 26	0.278 22	0.267 20	0.503 23	0.228 23	0.616 24	0.533 23	0.375 24	0.820 19	0.729 22	0.560 17

Enet (reimpl)	0.376 26	0.264 27	0.452 27	0.452 13	0.365 25	0.181 25	0.143 27	0.456 26	0.409 26	0.346 26	0.769 27	0.164 25	0.218 25	0.359 26	0.123 27	0.403 27	0.381 27	0.313 27	0.571 26	0.685 25	0.472 24
Re-implementation of Adam Paszke, Abhishek Chaurasia, Sangpil Kim, Eugenio Culurciello: ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation.
ScanNet (2d proj)	0.330 27	0.293 26	0.521 26	0.657 6	0.361 26	0.161 26	0.250 26	0.004 27	0.440 24	0.183 27	0.836 24	0.125 26	0.060 27	0.319 27	0.132 26	0.417 26	0.412 26	0.344 26	0.541 27	0.427 27	0.109 27
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17

Method	avg ap 50%	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

EMSANet (Instance)	0.380 1	0.549 3	0.651 1	0.147 1	0.397 3	0.399 1	0.167 2	0.437 3	0.319 2	0.210 1	0.301 1	0.235 1	0.463 2	0.245 2	0.372 3	0.511 1	0.296 2	0.876 1	0.268 1
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
FKNet	0.368 2	0.588 1	0.618 2	0.099 3	0.466 1	0.395 2	0.108 3	0.548 1	0.157 3	0.175 2	0.268 2	0.096 4	0.439 3	0.343 1	0.420 2	0.500 3	0.317 1	0.855 3	0.234 2

UniDet_RVC	0.358 3	0.554 2	0.543 3	0.128 2	0.402 2	0.381 3	0.200 1	0.461 2	0.328 1	0.138 3	0.232 3	0.148 3	0.466 1	0.109 3	0.538 1	0.506 2	0.294 3	0.862 2	0.159 3

MaskRCNN_ScanNet	0.227 4	0.228 4	0.381 4	0.013 4	0.237 4	0.339 4	0.089 4	0.339 4	0.150 4	0.134 4	0.143 4	0.179 2	0.255 4	0.053 4	0.331 4	0.244 4	0.154 4	0.687 4	0.127 4
Re-implementation of Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick: Mask R-CNN. ICCV'17

Presenting the ScanNet200 Benchmark

ScanNet200 Benchmark

ScanNet200 3D Semantic Label Benchmark

ScanNet200 3D Semantic Instance Benchmark

ScanNet Benchmark

3D Semantic Label Benchmark

3D Semantic Instance Benchmark

2D Semantic Label Benchmark

2D Semantic Instance Benchmark

Scene Type Classification Benchmark

Method	avg recall	apartment	bathroom	bedroom / hotel	bookstore / library	conference room	copy/mail room	hallway	kitchen	laundry room	living room / lounge	misc	office	storage / basement / garage

LAST-PCL-type	0.780 1	0.250 3	1.000 1	1.000 1	1.000 1	1.000 1	1.000 1	0.500 2	1.000 1	0.500 2	0.889 1	0.000 2	1.000 1	1.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang: Language-Assisted 3D Scene Understanding. arxiv23.12
multi-task	0.700 2	0.500 1	1.000 1	0.882 3	0.500 3	1.000 1	1.000 1	0.500 2	1.000 1	1.000 1	0.778 2	0.000 2	0.938 2	0.000 3
Shengyu Huang, Mikhail Usvyatsov, Konrad Schindler: Indoor Scene Recognition in 3D. IROS 2020
3DASPP-SCE	0.691 3	0.500 1	0.938 3	0.824 4	1.000 1	1.000 1	0.500 3	1.000 1	0.857 3	0.500 2	0.556 4	0.000 2	0.812 3	0.500 2

SE-ResNeXt-SSMA	0.498 4	0.000 5	0.812 4	0.941 2	0.500 3	0.500 4	0.500 3	0.500 2	0.429 5	0.500 2	0.667 3	0.500 1	0.625 4	0.000 3
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. arXiv
resnet50_scannet	0.353 5	0.250 3	0.812 4	0.529 5	0.500 3	0.500 4	0.000 5	0.500 2	0.571 4	0.000 5	0.556 4	0.000 2	0.375 5	0.000 3