Benchmark Results - ScanNet Benchmark

This table lists the benchmark results for the ScanNet200 3D semantic label scenario.

Method	avg iou	head iou	common iou	tail iou	wall	chair	floor	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

ALS-MinkowskiNet	0.414 1	0.610 1	0.322 2	0.271 1	0.852 1	0.710 1	0.973 1	0.572 2	0.719 2	0.795 1	0.477 4	0.506 1	0.601 1	0.000 10	0.804 4	0.646 2	0.804 1	0.344 2	0.777 1	0.984 1	0.671 1	0.879 2	0.936 1	0.342 3	0.632 5	0.449 2	0.817 3	0.475 6	0.723 1	0.798 1	0.376 7	0.832 1	0.693 1	0.031 8	0.564 1	0.510 10	0.000 1	0.893 1	0.905 1	0.672 13	0.314 1	0.000 7	0.718 1	0.153 1	0.542 1	0.397 2	0.726 2	0.752 7	0.252 6	0.226 1	0.916 1	0.800 1	0.047 12	0.807 2	0.769 1	0.709 2	0.630 2	0.769 1	0.217 8	0.000 3	0.285 1	0.598 3	0.846 8	0.535 1	0.956 2	0.000 3	0.137 8	0.784 1	0.464 5	0.463 10	0.230 8	0.000 1	0.598 2	0.662 6	0.000 4	0.087 2	0.000 1	0.135 1	0.900 1	0.780 10	0.703 1	0.741 1	0.571 2	0.149 9	0.697 3	0.646 1	0.000 3	0.076 1	0.000 1	0.025 7	0.000 3	0.106 4	0.981 1	0.000 1	0.043 5	0.113 3	0.888 1	0.248 12	0.404 3	0.252 4	0.314 1	0.220 5	0.245 1	0.466 6	0.366 1	0.159 2	0.000 3	0.149 5	0.690 2	0.000 1	0.531 2	0.253 1	0.285 4	0.460 1	0.440 4	0.813 1	0.230 1	0.283 4	0.159 9	0.000 1	0.728 1	0.666 4	0.958 1	0.000 1	0.021 4	0.252 4	0.118 3	0.000 5	0.445 3	0.223 9	0.285 1	0.194 3	0.390 2	0.000 1	0.475 1	0.842 7	0.000 1	0.455 3	0.000 1	0.250 4	0.458 7	0.000 1	0.865 1	0.000 1	0.000 1	0.635 1	0.359 2	0.972 1	0.087 2	0.447 1	0.000 1	0.000 5	0.000 1	0.129 2	0.532 5	0.446 6	0.503 3	0.071 11	0.135 11	0.699 3	0.717 1	0.097 1	0.000 1	0.665 1	0.000 2	0.000 2	1.000 1	0.752 4	0.000 2	0.000 1	0.000 1	0.142 8	0.200 1	0.259 1	1.000 1	0.000 1

BFANet ScanNet200	0.360 3	0.553 5	0.293 3	0.193 3	0.827 3	0.689 3	0.970 3	0.528 9	0.661 5	0.753 5	0.436 6	0.378 6	0.469 11	0.042 5	0.810 2	0.654 1	0.760 3	0.266 6	0.659 8	0.973 3	0.574 3	0.849 10	0.897 3	0.382 1	0.546 9	0.372 7	0.698 10	0.491 5	0.617 6	0.526 6	0.436 1	0.764 10	0.476 13	0.101 5	0.409 3	0.585 7	0.000 1	0.835 2	0.901 3	0.810 5	0.102 10	0.000 7	0.688 2	0.096 4	0.483 7	0.264 8	0.612 7	0.591 12	0.358 1	0.161 4	0.863 4	0.707 3	0.128 2	0.814 1	0.669 4	0.629 8	0.563 3	0.651 11	0.258 3	0.000 3	0.194 7	0.494 6	0.806 10	0.394 5	0.953 3	0.000 3	0.233 1	0.757 3	0.508 4	0.556 3	0.476 2	0.000 1	0.573 4	0.741 3	0.000 4	0.000 7	0.000 1	0.000 4	0.000 13	0.852 4	0.678 2	0.616 4	0.460 4	0.338 3	0.710 2	0.534 3	0.000 3	0.025 3	0.000 1	0.043 2	0.000 3	0.056 10	0.493 13	0.000 1	0.000 8	0.109 4	0.785 3	0.590 3	0.298 11	0.282 3	0.143 9	0.262 4	0.053 9	0.526 4	0.337 4	0.215 1	0.000 3	0.135 6	0.510 4	0.000 1	0.596 1	0.043 10	0.511 2	0.321 10	0.459 2	0.772 2	0.124 9	0.060 10	0.266 4	0.000 1	0.574 7	0.568 6	0.653 7	0.000 1	0.093 1	0.298 2	0.239 1	0.000 5	0.516 2	0.129 10	0.284 2	0.000 5	0.431 1	0.000 1	0.000 2	0.848 6	0.000 1	0.492 1	0.000 1	0.376 2	0.522 5	0.000 1	0.469 13	0.000 1	0.000 1	0.330 5	0.151 6	0.875 11	0.000 6	0.254 2	0.000 1	0.000 5	0.000 1	0.088 11	0.661 1	0.481 3	0.255 10	0.105 1	0.139 9	0.666 4	0.641 3	0.000 9	0.000 1	0.614 2	0.000 2	0.000 2	0.000 8	0.921 1	0.000 2	0.000 1	0.000 1	0.497 1	0.000 5	0.000 3	0.000 7	0.000 1

CeCo	0.340 5	0.551 7	0.247 9	0.181 4	0.784 9	0.661 10	0.939 9	0.564 4	0.624 9	0.721 8	0.484 3	0.429 3	0.575 3	0.027 6	0.774 8	0.503 10	0.753 4	0.242 9	0.656 9	0.945 6	0.534 6	0.865 6	0.860 7	0.177 13	0.616 6	0.400 3	0.818 2	0.579 1	0.615 7	0.367 10	0.408 5	0.726 11	0.633 3	0.162 1	0.360 5	0.619 2	0.000 1	0.828 5	0.873 8	0.924 2	0.109 9	0.083 3	0.564 4	0.057 13	0.475 9	0.266 7	0.781 1	0.767 6	0.257 5	0.100 9	0.825 7	0.663 8	0.048 11	0.620 10	0.551 8	0.595 11	0.532 6	0.692 7	0.246 4	0.000 3	0.213 5	0.615 1	0.861 5	0.376 6	0.900 4	0.000 3	0.102 12	0.660 6	0.321 11	0.547 4	0.226 9	0.000 1	0.311 9	0.742 2	0.011 3	0.006 6	0.000 1	0.000 4	0.546 11	0.824 7	0.345 10	0.665 2	0.450 5	0.435 1	0.683 4	0.411 6	0.338 1	0.000 6	0.000 1	0.030 6	0.000 3	0.068 7	0.892 6	0.000 1	0.063 3	0.000 9	0.257 9	0.304 10	0.387 4	0.079 10	0.228 4	0.190 8	0.000 12	0.586 1	0.347 3	0.133 6	0.000 3	0.037 9	0.377 9	0.000 1	0.384 5	0.006 12	0.003 9	0.421 3	0.410 9	0.643 5	0.171 5	0.121 5	0.142 10	0.000 1	0.510 9	0.447 8	0.474 10	0.000 1	0.000 8	0.286 3	0.083 9	0.000 5	0.000 8	0.603 1	0.096 5	0.063 4	0.000 9	0.000 1	0.000 2	0.898 3	0.000 1	0.429 5	0.000 1	0.400 1	0.550 3	0.000 1	0.633 5	0.000 1	0.000 1	0.377 4	0.000 11	0.916 4	0.000 6	0.000 7	0.000 1	0.000 5	0.000 1	0.102 10	0.499 8	0.296 10	0.463 4	0.089 5	0.304 1	0.740 2	0.401 12	0.010 4	0.000 1	0.560 3	0.000 2	0.000 2	0.709 2	0.652 8	0.000 2	0.000 1	0.000 1	0.143 7	0.000 5	0.000 3	0.609 3	0.000 1
Zhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia: Understanding Imbalanced Semantic Segmentation Through Neural Collapse. CVPR 2023
PTv3 ScanNet200	0.393 2	0.592 2	0.330 1	0.216 2	0.851 2	0.687 5	0.971 2	0.586 1	0.755 1	0.752 6	0.505 1	0.404 5	0.575 3	0.000 10	0.848 1	0.616 3	0.761 2	0.349 1	0.738 2	0.978 2	0.546 5	0.860 7	0.926 2	0.346 2	0.654 3	0.384 5	0.828 1	0.523 3	0.699 2	0.583 4	0.387 6	0.822 2	0.688 2	0.118 4	0.474 2	0.603 4	0.000 1	0.832 4	0.903 2	0.753 8	0.140 7	0.000 7	0.650 3	0.109 3	0.520 2	0.457 1	0.497 8	0.871 3	0.281 2	0.192 3	0.887 3	0.748 2	0.168 1	0.727 4	0.733 2	0.740 1	0.644 1	0.714 4	0.190 9	0.000 3	0.256 3	0.449 7	0.914 1	0.514 2	0.759 11	0.337 1	0.172 4	0.692 5	0.617 1	0.636 1	0.325 4	0.000 1	0.641 1	0.782 1	0.000 4	0.065 3	0.000 1	0.000 4	0.842 2	0.903 1	0.661 3	0.662 3	0.612 1	0.405 2	0.731 1	0.566 2	0.000 3	0.000 6	0.000 1	0.017 11	0.301 1	0.088 5	0.941 2	0.000 1	0.077 2	0.000 9	0.717 4	0.790 1	0.310 10	0.026 13	0.264 3	0.349 1	0.220 3	0.397 9	0.366 1	0.115 9	0.000 3	0.337 1	0.463 6	0.000 1	0.531 2	0.218 2	0.593 1	0.455 2	0.469 1	0.708 3	0.210 2	0.592 2	0.108 12	0.000 1	0.728 1	0.682 2	0.671 5	0.000 1	0.000 8	0.407 1	0.136 2	0.022 2	0.575 1	0.436 4	0.259 3	0.428 1	0.048 4	0.000 1	0.000 2	0.879 5	0.000 1	0.480 2	0.000 1	0.133 6	0.597 1	0.000 1	0.690 2	0.000 1	0.000 1	0.009 12	0.000 11	0.921 3	0.000 6	0.151 3	0.000 1	0.000 5	0.000 1	0.109 7	0.494 10	0.622 2	0.394 7	0.073 10	0.141 7	0.798 1	0.528 4	0.026 2	0.000 1	0.551 4	0.000 2	0.000 2	0.134 6	0.717 6	0.000 2	0.000 1	0.000 1	0.188 3	0.000 5	0.000 3	0.791 2	0.000 1
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
L3DETR-ScanNet_200	0.336 6	0.533 9	0.279 4	0.155 6	0.801 8	0.689 3	0.946 5	0.539 7	0.660 6	0.759 3	0.380 10	0.333 10	0.583 2	0.000 10	0.788 7	0.529 8	0.740 6	0.261 8	0.679 7	0.940 9	0.525 9	0.860 7	0.883 5	0.226 9	0.613 7	0.397 4	0.720 9	0.512 4	0.565 8	0.620 2	0.417 4	0.775 9	0.629 4	0.158 2	0.298 8	0.579 8	0.000 1	0.835 2	0.883 5	0.927 1	0.114 8	0.079 4	0.511 8	0.073 9	0.508 4	0.312 4	0.629 4	0.861 4	0.192 12	0.098 11	0.908 2	0.636 9	0.032 13	0.563 13	0.514 11	0.664 4	0.505 8	0.697 6	0.225 7	0.000 3	0.264 2	0.411 9	0.860 6	0.321 9	0.960 1	0.058 2	0.109 10	0.776 2	0.526 3	0.557 2	0.303 6	0.000 1	0.339 8	0.712 4	0.000 4	0.014 5	0.000 1	0.000 4	0.638 8	0.856 3	0.641 6	0.579 9	0.107 13	0.119 11	0.661 7	0.416 5	0.000 3	0.000 6	0.000 1	0.007 13	0.000 3	0.067 8	0.910 4	0.000 1	0.000 8	0.000 9	0.463 7	0.448 5	0.294 12	0.324 1	0.293 2	0.211 6	0.108 6	0.448 7	0.068 13	0.141 5	0.000 3	0.330 2	0.699 1	0.000 1	0.256 7	0.192 4	0.000 11	0.355 6	0.418 6	0.209 13	0.146 8	0.679 1	0.101 13	0.000 1	0.503 11	0.687 1	0.671 5	0.000 1	0.000 8	0.174 7	0.117 4	0.000 5	0.122 6	0.515 2	0.104 4	0.259 2	0.312 3	0.000 1	0.000 2	0.765 9	0.000 1	0.369 10	0.000 1	0.183 5	0.422 10	0.000 1	0.646 3	0.000 1	0.000 1	0.565 2	0.001 10	0.125 13	0.010 4	0.002 6	0.000 1	0.487 1	0.000 1	0.075 12	0.548 3	0.420 7	0.233 12	0.082 7	0.138 10	0.430 10	0.427 9	0.000 9	0.000 1	0.549 5	0.000 2	0.000 2	0.074 7	0.409 12	0.000 2	0.000 1	0.000 1	0.152 6	0.051 3	0.000 3	0.598 4	0.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, Jian Zhang: Language-Assisted 3D Scene Understanding. arXiv23.12
PPT-SpUNet-F.T.	0.332 8	0.556 4	0.270 5	0.123 10	0.816 5	0.682 6	0.946 5	0.549 6	0.657 7	0.756 4	0.459 5	0.376 7	0.550 7	0.001 9	0.807 3	0.616 3	0.727 8	0.267 5	0.691 4	0.942 8	0.530 8	0.872 5	0.874 6	0.330 6	0.542 10	0.374 6	0.792 4	0.400 10	0.673 3	0.572 5	0.433 2	0.793 5	0.623 5	0.008 13	0.351 6	0.594 6	0.000 1	0.783 9	0.876 6	0.833 4	0.213 4	0.000 7	0.537 6	0.091 5	0.519 3	0.304 5	0.620 6	0.942 1	0.264 3	0.124 6	0.855 5	0.695 4	0.086 6	0.646 7	0.506 12	0.658 5	0.535 5	0.715 3	0.314 1	0.000 3	0.241 4	0.608 2	0.897 2	0.359 7	0.858 7	0.000 3	0.076 13	0.611 9	0.392 8	0.509 6	0.378 3	0.000 1	0.579 3	0.565 12	0.000 4	0.000 7	0.000 1	0.000 4	0.755 5	0.806 8	0.661 3	0.572 11	0.350 8	0.181 7	0.660 8	0.300 10	0.000 3	0.000 6	0.000 1	0.023 8	0.000 3	0.042 12	0.930 3	0.000 1	0.000 8	0.077 6	0.584 5	0.392 7	0.339 7	0.185 6	0.171 8	0.308 2	0.006 11	0.563 3	0.256 7	0.150 3	0.000 3	0.002 12	0.345 11	0.000 1	0.045 10	0.197 3	0.063 7	0.323 9	0.453 3	0.600 7	0.163 7	0.037 11	0.349 2	0.000 1	0.672 3	0.679 3	0.753 2	0.000 1	0.000 8	0.000 8	0.117 4	0.000 5	0.000 8	0.291 8	0.000 8	0.000 5	0.039 5	0.000 1	0.000 2	0.899 2	0.000 1	0.374 9	0.000 1	0.000 9	0.545 4	0.000 1	0.634 4	0.000 1	0.000 1	0.074 9	0.223 4	0.914 6	0.000 6	0.021 5	0.000 1	0.000 5	0.000 1	0.112 5	0.498 9	0.649 1	0.383 8	0.095 2	0.135 11	0.449 9	0.432 8	0.008 6	0.000 1	0.518 6	0.000 2	0.000 2	0.000 8	0.796 3	0.000 2	0.000 1	0.000 1	0.138 10	0.000 5	0.000 3	0.000 7	0.000 1
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
LGround	0.272 11	0.485 11	0.184 11	0.106 11	0.778 11	0.676 8	0.932 11	0.479 13	0.572 11	0.718 10	0.399 8	0.265 11	0.453 12	0.085 3	0.745 11	0.446 11	0.726 9	0.232 11	0.622 11	0.901 11	0.512 10	0.826 11	0.786 12	0.178 12	0.549 8	0.277 11	0.659 11	0.381 11	0.518 10	0.295 13	0.323 10	0.777 8	0.599 8	0.028 9	0.321 7	0.363 12	0.000 1	0.708 11	0.858 11	0.746 9	0.063 11	0.022 5	0.457 11	0.077 8	0.476 8	0.243 11	0.402 10	0.397 13	0.233 8	0.077 13	0.720 13	0.610 12	0.103 4	0.629 9	0.437 13	0.626 9	0.446 10	0.702 5	0.190 9	0.005 1	0.058 12	0.322 11	0.702 12	0.244 11	0.768 10	0.000 3	0.134 9	0.552 11	0.279 12	0.395 11	0.147 12	0.000 1	0.207 11	0.612 10	0.000 4	0.000 7	0.000 1	0.000 4	0.658 7	0.566 11	0.323 11	0.525 13	0.229 10	0.179 8	0.467 13	0.154 12	0.000 3	0.002 4	0.000 1	0.051 1	0.000 3	0.127 2	0.703 10	0.000 1	0.000 8	0.216 1	0.112 12	0.358 8	0.547 1	0.187 5	0.092 12	0.156 13	0.055 8	0.296 11	0.252 8	0.143 4	0.000 3	0.014 10	0.398 7	0.000 1	0.028 12	0.173 5	0.000 11	0.265 12	0.348 11	0.415 12	0.179 4	0.019 12	0.218 6	0.000 1	0.597 6	0.274 13	0.565 9	0.000 1	0.012 5	0.000 8	0.039 12	0.022 2	0.000 8	0.117 11	0.000 8	0.000 5	0.000 9	0.000 1	0.000 2	0.324 12	0.000 1	0.384 7	0.000 1	0.000 9	0.251 13	0.000 1	0.566 9	0.000 1	0.000 1	0.066 10	0.404 1	0.886 10	0.199 1	0.000 7	0.000 1	0.059 3	0.000 1	0.136 1	0.540 4	0.127 13	0.295 9	0.085 6	0.143 6	0.514 6	0.413 11	0.000 9	0.000 1	0.498 7	0.000 2	0.000 2	0.000 8	0.623 9	0.000 2	0.000 1	0.000 1	0.132 12	0.000 5	0.000 3	0.000 7	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild. arXiv
PonderV2 ScanNet200	0.346 4	0.552 6	0.270 6	0.175 5	0.810 6	0.682 6	0.950 4	0.560 5	0.641 8	0.761 2	0.398 9	0.357 8	0.570 6	0.113 2	0.804 4	0.603 5	0.750 5	0.283 3	0.681 5	0.952 4	0.548 4	0.874 4	0.852 9	0.290 8	0.700 2	0.356 9	0.792 4	0.445 8	0.545 9	0.436 8	0.351 9	0.787 6	0.611 6	0.050 7	0.290 10	0.519 9	0.000 1	0.825 6	0.888 4	0.842 3	0.259 3	0.100 2	0.558 5	0.070 10	0.497 6	0.247 10	0.457 9	0.889 2	0.248 7	0.106 8	0.817 9	0.691 5	0.094 5	0.729 3	0.636 5	0.620 10	0.503 9	0.660 10	0.243 5	0.000 3	0.212 6	0.590 4	0.860 6	0.400 4	0.881 5	0.000 3	0.202 2	0.622 8	0.408 7	0.499 7	0.261 7	0.000 1	0.385 7	0.636 7	0.000 4	0.000 7	0.000 1	0.000 4	0.433 12	0.843 5	0.660 5	0.574 10	0.481 3	0.336 4	0.677 5	0.486 4	0.000 3	0.030 2	0.000 1	0.034 5	0.000 3	0.080 6	0.869 8	0.000 1	0.000 8	0.000 9	0.540 6	0.727 2	0.232 13	0.115 7	0.186 6	0.193 7	0.000 12	0.403 8	0.326 5	0.103 10	0.000 3	0.290 3	0.392 8	0.000 1	0.346 6	0.062 8	0.424 3	0.375 5	0.431 5	0.667 4	0.115 10	0.082 8	0.239 5	0.000 1	0.504 10	0.606 5	0.584 8	0.000 1	0.002 6	0.186 6	0.104 8	0.000 5	0.394 4	0.384 6	0.083 6	0.000 5	0.007 7	0.000 1	0.000 2	0.880 4	0.000 1	0.377 8	0.000 1	0.263 3	0.565 2	0.000 1	0.608 7	0.000 1	0.000 1	0.304 6	0.009 7	0.924 2	0.000 6	0.000 7	0.000 1	0.000 5	0.000 1	0.128 3	0.584 2	0.475 5	0.412 6	0.076 9	0.269 3	0.621 5	0.509 5	0.010 4	0.000 1	0.491 8	0.063 1	0.000 2	0.472 4	0.880 2	0.000 2	0.000 1	0.000 1	0.179 4	0.125 2	0.000 3	0.441 6	0.000 1
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
OA-CNN-L_ScanNet200	0.333 7	0.558 3	0.269 7	0.124 9	0.821 4	0.703 2	0.946 5	0.569 3	0.662 3	0.748 7	0.487 2	0.455 2	0.572 5	0.000 10	0.789 6	0.534 7	0.736 7	0.271 4	0.713 3	0.949 5	0.498 12	0.877 3	0.860 7	0.332 5	0.706 1	0.474 1	0.788 6	0.406 9	0.637 4	0.495 7	0.355 8	0.805 4	0.592 10	0.015 12	0.396 4	0.602 5	0.000 1	0.799 7	0.876 6	0.713 12	0.276 2	0.000 7	0.493 9	0.080 7	0.448 11	0.363 3	0.661 3	0.833 5	0.262 4	0.125 5	0.823 8	0.665 7	0.076 7	0.720 5	0.557 7	0.637 7	0.517 7	0.672 9	0.227 6	0.000 3	0.158 9	0.496 5	0.843 9	0.352 8	0.835 9	0.000 3	0.103 11	0.711 4	0.527 2	0.526 5	0.320 5	0.000 1	0.568 5	0.625 8	0.067 1	0.000 7	0.000 1	0.001 3	0.806 4	0.836 6	0.621 8	0.591 6	0.373 7	0.314 5	0.668 6	0.398 7	0.003 2	0.000 6	0.000 1	0.016 12	0.024 2	0.043 11	0.906 5	0.000 1	0.052 4	0.000 9	0.384 8	0.330 9	0.342 6	0.100 8	0.223 5	0.183 9	0.112 5	0.476 5	0.313 6	0.130 8	0.196 2	0.112 8	0.370 10	0.000 1	0.234 8	0.071 7	0.160 5	0.403 4	0.398 10	0.492 11	0.197 3	0.076 9	0.272 3	0.000 1	0.200 13	0.560 7	0.735 4	0.000 1	0.000 8	0.000 8	0.110 6	0.002 4	0.021 7	0.412 5	0.000 8	0.000 5	0.000 9	0.000 1	0.000 2	0.794 8	0.000 1	0.445 4	0.000 1	0.022 7	0.509 6	0.000 1	0.517 11	0.000 1	0.000 1	0.001 13	0.245 3	0.915 5	0.024 3	0.089 4	0.000 1	0.262 2	0.000 1	0.103 9	0.524 6	0.392 9	0.515 2	0.013 13	0.251 4	0.411 11	0.662 2	0.001 8	0.000 1	0.473 9	0.000 2	0.000 2	0.150 5	0.699 7	0.000 2	0.000 1	0.000 1	0.166 5	0.000 5	0.024 2	0.000 7	0.000 1

OctFormer ScanNet200	0.326 9	0.539 8	0.265 8	0.131 8	0.806 7	0.670 9	0.943 8	0.535 8	0.662 3	0.705 12	0.423 7	0.407 4	0.505 9	0.003 8	0.765 9	0.582 6	0.686 11	0.227 12	0.680 6	0.943 7	0.601 2	0.854 9	0.892 4	0.335 4	0.417 13	0.357 8	0.724 8	0.453 7	0.632 5	0.596 3	0.432 3	0.783 7	0.512 12	0.021 11	0.244 11	0.637 1	0.000 1	0.787 8	0.873 8	0.743 10	0.000 13	0.000 7	0.534 7	0.110 2	0.499 5	0.289 6	0.626 5	0.620 10	0.168 13	0.204 2	0.849 6	0.679 6	0.117 3	0.633 8	0.684 3	0.650 6	0.552 4	0.684 8	0.312 2	0.000 3	0.175 8	0.429 8	0.865 3	0.413 3	0.837 8	0.000 3	0.145 6	0.626 7	0.451 6	0.487 8	0.513 1	0.000 1	0.529 6	0.613 9	0.000 4	0.033 4	0.000 1	0.000 4	0.828 3	0.871 2	0.622 7	0.587 7	0.411 6	0.137 10	0.645 10	0.343 8	0.000 3	0.000 6	0.000 1	0.022 9	0.000 3	0.026 13	0.829 9	0.000 1	0.022 6	0.089 5	0.842 2	0.253 11	0.318 9	0.296 2	0.178 7	0.291 3	0.224 2	0.584 2	0.200 10	0.132 7	0.000 3	0.128 7	0.227 12	0.000 1	0.230 9	0.047 9	0.149 6	0.331 8	0.412 8	0.618 6	0.164 6	0.102 7	0.522 1	0.000 1	0.655 4	0.378 9	0.469 11	0.000 1	0.000 8	0.000 8	0.105 7	0.000 5	0.000 8	0.483 3	0.000 8	0.000 5	0.028 6	0.000 1	0.000 2	0.906 1	0.000 1	0.339 11	0.000 1	0.000 9	0.457 8	0.000 1	0.612 6	0.000 1	0.000 1	0.408 3	0.000 11	0.900 7	0.000 6	0.000 7	0.000 1	0.029 4	0.000 1	0.074 13	0.455 11	0.479 4	0.427 5	0.079 8	0.140 8	0.496 7	0.414 10	0.022 3	0.000 1	0.471 10	0.000 2	0.000 2	0.000 8	0.722 5	0.000 2	0.000 1	0.000 1	0.138 10	0.000 5	0.000 3	0.000 7	0.000 1
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
AWCS	0.305 10	0.508 10	0.225 10	0.142 7	0.782 10	0.634 13	0.937 10	0.489 11	0.578 10	0.721 8	0.364 11	0.355 9	0.515 8	0.023 7	0.764 10	0.523 9	0.707 10	0.264 7	0.633 10	0.922 10	0.507 11	0.886 1	0.804 11	0.179 11	0.436 12	0.300 10	0.656 12	0.529 2	0.501 11	0.394 9	0.296 12	0.820 3	0.603 7	0.131 3	0.179 13	0.619 2	0.000 1	0.707 12	0.865 10	0.773 6	0.171 5	0.010 6	0.484 10	0.063 11	0.463 10	0.254 9	0.332 12	0.649 9	0.220 9	0.100 9	0.729 11	0.613 11	0.071 9	0.582 11	0.628 6	0.702 3	0.424 11	0.749 2	0.137 11	0.000 3	0.142 10	0.360 10	0.863 4	0.305 10	0.877 6	0.000 3	0.173 3	0.606 10	0.337 10	0.478 9	0.154 11	0.000 1	0.253 10	0.664 5	0.000 4	0.000 7	0.000 1	0.000 4	0.626 9	0.782 9	0.302 12	0.602 5	0.185 11	0.282 6	0.651 9	0.317 9	0.000 3	0.000 6	0.000 1	0.022 9	0.000 3	0.154 1	0.876 7	0.000 1	0.014 7	0.063 8	0.029 13	0.553 4	0.467 2	0.084 9	0.124 10	0.157 12	0.049 10	0.373 10	0.252 8	0.097 11	0.000 3	0.219 4	0.542 3	0.000 1	0.392 4	0.172 6	0.000 11	0.339 7	0.417 7	0.533 10	0.093 11	0.115 6	0.195 7	0.000 1	0.516 8	0.288 12	0.741 3	0.000 1	0.001 7	0.233 5	0.056 10	0.000 5	0.159 5	0.334 7	0.077 7	0.000 5	0.000 9	0.000 1	0.000 2	0.749 10	0.000 1	0.411 6	0.000 1	0.008 8	0.452 9	0.000 1	0.595 8	0.000 1	0.000 1	0.220 8	0.006 8	0.894 9	0.006 5	0.000 7	0.000 1	0.000 5	0.000 1	0.112 5	0.504 7	0.404 8	0.551 1	0.093 4	0.129 13	0.484 8	0.381 13	0.000 9	0.000 1	0.396 11	0.000 2	0.000 2	0.620 3	0.402 13	0.000 2	0.000 1	0.000 1	0.142 8	0.000 5	0.000 3	0.512 5	0.000 1

Minkowski 34D	0.253 12	0.463 12	0.154 13	0.102 12	0.771 12	0.650 12	0.932 11	0.483 12	0.571 12	0.710 11	0.331 12	0.250 12	0.492 10	0.044 4	0.703 12	0.419 13	0.606 13	0.227 12	0.621 12	0.865 13	0.531 7	0.771 13	0.813 10	0.291 7	0.484 11	0.242 12	0.612 13	0.282 13	0.440 13	0.351 11	0.299 11	0.622 12	0.593 9	0.027 10	0.293 9	0.310 13	0.000 1	0.757 10	0.858 11	0.737 11	0.150 6	0.164 1	0.368 13	0.084 6	0.381 13	0.142 13	0.357 11	0.720 8	0.214 10	0.092 12	0.724 12	0.596 13	0.056 10	0.655 6	0.525 10	0.581 13	0.352 13	0.594 12	0.056 13	0.000 3	0.014 13	0.224 12	0.772 11	0.205 13	0.720 12	0.000 3	0.159 5	0.531 12	0.163 13	0.294 12	0.136 13	0.000 1	0.169 12	0.589 11	0.000 4	0.000 7	0.000 1	0.002 2	0.663 6	0.466 13	0.265 13	0.582 8	0.337 9	0.016 12	0.559 11	0.084 13	0.000 3	0.000 6	0.000 1	0.036 4	0.000 3	0.125 3	0.670 11	0.000 1	0.102 1	0.071 7	0.164 11	0.406 6	0.386 5	0.046 12	0.068 13	0.159 11	0.117 4	0.284 12	0.111 12	0.094 12	0.000 3	0.000 13	0.197 13	0.000 1	0.044 11	0.013 11	0.002 10	0.228 13	0.307 13	0.588 8	0.025 13	0.545 3	0.134 11	0.000 1	0.655 4	0.302 11	0.282 13	0.000 1	0.060 2	0.000 8	0.035 13	0.000 5	0.000 8	0.097 13	0.000 8	0.000 5	0.005 8	0.000 1	0.000 2	0.096 13	0.000 1	0.334 12	0.000 1	0.000 9	0.274 12	0.000 1	0.513 12	0.000 1	0.000 1	0.280 7	0.194 5	0.897 8	0.000 6	0.000 7	0.000 1	0.000 5	0.000 1	0.108 8	0.279 13	0.189 12	0.141 13	0.059 12	0.272 2	0.307 13	0.445 6	0.003 7	0.000 1	0.353 12	0.000 2	0.026 1	0.000 8	0.581 11	0.001 1	0.000 1	0.000 1	0.093 13	0.002 4	0.000 3	0.000 7	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
CSC-Pretrain	0.249 13	0.455 13	0.171 12	0.079 13	0.766 13	0.659 11	0.930 13	0.494 10	0.542 13	0.700 13	0.314 13	0.215 13	0.430 13	0.121 1	0.697 13	0.441 12	0.683 12	0.235 10	0.609 13	0.895 12	0.476 13	0.816 12	0.770 13	0.186 10	0.634 4	0.216 13	0.734 7	0.340 12	0.471 12	0.307 12	0.293 13	0.591 13	0.542 11	0.076 6	0.205 12	0.464 11	0.000 1	0.484 13	0.832 13	0.766 7	0.052 12	0.000 7	0.413 12	0.059 12	0.418 12	0.222 12	0.318 13	0.609 11	0.206 11	0.112 7	0.743 10	0.625 10	0.076 7	0.579 12	0.548 9	0.590 12	0.371 12	0.552 13	0.081 12	0.003 2	0.142 10	0.201 13	0.638 13	0.233 12	0.686 13	0.000 3	0.142 7	0.444 13	0.375 9	0.247 13	0.198 10	0.000 1	0.128 13	0.454 13	0.019 2	0.097 1	0.000 1	0.000 4	0.553 10	0.557 12	0.373 9	0.545 12	0.164 12	0.014 13	0.547 12	0.174 11	0.000 3	0.002 4	0.000 1	0.037 3	0.000 3	0.063 9	0.664 12	0.000 1	0.000 8	0.130 2	0.170 10	0.152 13	0.335 8	0.079 10	0.110 11	0.175 10	0.098 7	0.175 13	0.166 11	0.045 13	0.207 1	0.014 10	0.465 5	0.000 1	0.001 13	0.001 13	0.046 8	0.299 11	0.327 12	0.537 9	0.033 12	0.012 13	0.186 8	0.000 1	0.205 12	0.377 10	0.463 12	0.000 1	0.058 3	0.000 8	0.055 11	0.041 1	0.000 8	0.105 12	0.000 8	0.000 5	0.000 9	0.000 1	0.000 2	0.398 11	0.000 1	0.308 13	0.000 1	0.000 9	0.319 11	0.000 1	0.543 10	0.000 1	0.000 1	0.062 11	0.004 9	0.862 12	0.000 6	0.000 7	0.000 1	0.000 5	0.000 1	0.123 4	0.316 12	0.225 11	0.250 11	0.094 3	0.180 5	0.332 12	0.441 7	0.000 9	0.000 1	0.310 13	0.000 2	0.000 2	0.000 8	0.592 10	0.000 2	0.000 1	0.000 1	0.203 2	0.000 5	0.000 3	0.000 7	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021

This table lists the benchmark results for the ScanNet200 3D semantic instance scenario.

Method	avg	chair	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	armchair	coffee table	box	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	ottoman	bench	board	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	rail	radiator	recycling bin	wardrobe	soap dispenser	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	guitar	toilet paper holder	seat	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	fireplace	soap dish	kitchen counter	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	shower door	pillar	ledge	toilet seat cover dispenser	cart	tissue box	light switch	crate	power outlet	decoration	projector	closet door	vacuum cleaner	candle	stuffed animal	headphones	dish rack	broom	guitar case	range hood	dustpan	water bottle	vent	mailbox	bowl	paper bag	alarm clock	music stand	projector screen	laundry detergent	bathroom counter	bathroom vanity	laundry hamper	bathroom stall door	trash bin	dumbbell	stair rail	tube	bathroom cabinet	cd case	closet rod	coffee kettle	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster	potted plant	luggage	mattress

TD3D Scannet200	0.320 2	0.501 2	0.264 2	0.164 2	0.841 1	0.679 1	0.716 2	0.879 2	0.280 3	0.192 1	0.634 1	0.231 1	0.733 3	0.459 2	0.565 3	0.498 5	0.560 2	1.000 1	0.686 1	0.890 2	0.708 1	0.123 4	0.820 1	0.152 2	0.967 1	0.456 1	0.458 2	0.387 2	0.194 1	0.435 5	0.906 1	0.077 1	0.396 2	0.509 1	0.217 2	0.715 1	0.619 2	1.000 1	0.099 2	0.792 1	0.513 2	0.062 2	0.506 3	0.549 1	0.605 1	1.000 1	0.123 4	0.106 1	1.000 1	0.744 4	0.000 2	1.000 1	0.504 5	0.525 2	0.185 2	0.790 4	0.101 2	0.008 2	0.587 2	0.356 1	0.817 1	0.083 5	1.000 1	0.000 1	0.621 1	0.842 1	0.415 1	0.268 4	0.083 4	0.000 2	0.098 3	0.881 1	0.125 2	0.000 2	0.000 1	0.000 2	0.000 3	0.125 4	0.332 3	0.448 5	0.202 2	0.196 1	0.798 1	0.264 2	0.000 2	0.000 1	0.017 2	0.233 2	0.000 1	0.063 1	0.333 2	0.038 1	0.111 1	0.250 3	0.000 2	0.516 1	0.208 1	0.470 2	0.094 3	0.218 1	0.000 1	0.667 2	0.033 5	0.000 2	0.000 1	0.400 1	0.156 2	0.000 1	0.267 1	0.226 1	0.000 1	0.104 2	0.159 2	0.299 5	0.095 3	0.458 1	0.500 1	0.000 1	1.000 1	0.472 1	0.792 3	0.000 1	0.022 1	0.061 2	0.250 1	0.008 1	0.250 2	0.333 2	0.143 2	0.396 2	0.049 2	0.012 1	0.000 1	0.283 4	0.000 1	0.241 4	0.000 1	0.101 2	0.331 4	0.000 1	0.629 3	0.000 1	0.000 1	0.857 2	0.222 3	0.677 1	0.000 1	0.003 2	0.000 1	0.000 2	0.000 1	0.076 2	0.252 3	0.400 1	0.431 2	0.061 3	0.328 3	0.331 4	0.500 1	0.000 2	0.000 1	0.167 1	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	1.000 1	0.542 1	0.000 2	0.063 1	0.000 2	0.000 1
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
LGround Inst.	0.246 3	0.413 3	0.170 3	0.130 3	0.754 3	0.541 3	0.682 4	0.903 1	0.264 4	0.164 2	0.234 3	0.000 3	0.681 4	0.452 3	0.464 5	0.541 4	0.399 3	1.000 1	0.637 2	0.772 3	0.588 4	0.190 2	0.589 5	0.081 3	0.857 3	0.426 3	0.373 3	0.318 3	0.135 2	0.690 2	0.653 4	0.000 3	0.159 4	0.500 2	0.000 3	0.581 3	0.387 4	1.000 1	0.046 3	0.000 3	0.402 3	0.003 5	0.455 5	0.196 4	0.571 2	1.000 1	0.270 3	0.003 5	0.530 5	0.748 3	0.000 2	0.744 4	0.575 3	0.511 3	0.112 3	0.815 2	0.067 3	0.000 3	0.400 3	0.167 3	0.667 3	0.241 2	1.000 1	0.000 1	0.208 4	0.660 3	0.125 4	0.317 2	0.000 5	0.000 2	0.100 2	0.561 4	0.000 3	0.000 2	0.000 1	0.000 2	1.000 1	0.500 1	0.344 2	0.568 4	0.167 3	0.000 3	0.706 3	0.068 3	0.000 2	0.000 1	0.000 3	0.063 3	0.000 1	0.000 3	0.056 4	0.000 3	0.000 3	0.500 2	0.000 2	0.143 5	0.017 4	0.125 3	0.097 2	0.164 3	0.000 1	0.582 4	0.400 1	0.000 2	0.000 1	0.000 4	0.083 4	0.000 1	0.000 3	0.000 3	0.000 1	0.025 3	0.156 3	0.533 3	0.250 2	0.200 2	0.500 1	0.000 1	1.000 1	0.333 4	1.000 1	0.000 1	0.000 3	0.000 3	0.000 3	0.000 2	0.000 3	0.333 2	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.400 3	0.000 1	0.364 2	0.000 1	0.000 3	0.500 3	0.000 1	0.511 4	0.000 1	0.000 1	0.286 3	0.333 2	0.000 5	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.034 3	0.111 5	0.000 3	0.333 4	0.031 5	0.000 4	0.750 1	0.125 2	0.000 2	0.000 1	0.151 2	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	0.000 2	0.000 5	0.000 2	0.000 2	0.000 2	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild.
Mask3D Scannet200	0.388 1	0.542 1	0.357 1	0.237 1	0.808 2	0.676 2	0.741 1	0.832 4	0.496 1	0.151 3	0.628 2	0.021 2	0.955 1	0.578 1	0.753 1	0.612 1	0.591 1	0.822 5	0.609 3	0.926 1	0.614 3	0.291 1	0.725 4	0.163 1	0.890 2	0.380 5	0.615 1	0.517 1	0.130 3	0.806 1	0.857 2	0.024 2	0.511 1	0.412 5	0.226 1	0.597 2	0.756 1	1.000 1	0.111 1	0.792 1	0.736 1	0.091 1	0.610 1	0.527 2	0.323 4	1.000 1	0.504 1	0.063 2	1.000 1	0.853 1	0.010 1	0.974 3	0.839 1	0.667 1	0.301 1	0.883 1	0.266 1	0.039 1	0.640 1	0.311 2	0.739 2	0.463 1	1.000 1	0.000 1	0.287 2	0.715 2	0.313 2	0.600 1	1.000 1	0.027 1	0.076 4	0.502 5	0.500 1	0.409 1	0.000 1	0.194 1	0.125 2	0.500 1	0.491 1	0.748 1	0.050 4	0.042 2	0.776 2	0.352 1	0.008 1	0.000 1	0.033 1	0.254 1	0.000 1	0.005 2	0.552 1	0.008 2	0.020 2	0.750 1	0.500 1	0.409 2	0.065 3	0.511 1	0.107 1	0.178 2	0.000 1	1.000 1	0.400 1	0.016 1	0.000 1	0.400 1	0.571 1	0.000 1	0.060 2	0.044 2	0.000 1	0.514 1	0.278 1	1.000 1	0.258 1	0.017 3	0.125 5	0.000 1	0.792 3	0.399 3	1.000 1	0.000 1	0.013 2	0.265 1	0.018 2	0.000 2	1.000 1	0.335 1	0.381 1	0.500 1	0.250 1	0.004 2	0.000 1	0.727 1	0.000 1	0.497 1	0.000 1	0.188 1	0.677 2	0.000 1	0.708 2	0.000 1	0.000 1	0.945 1	0.391 1	0.123 4	0.000 1	0.028 1	0.000 1	1.000 1	0.000 1	0.099 1	0.451 1	0.400 1	0.668 1	0.573 1	0.606 1	0.077 5	0.003 4	0.004 1	0.000 1	0.042 3	0.000 1	0.000 1	1.000 1	1.000 1	0.000 1	0.042 1	0.000 2	0.200 2	0.302 1	0.000 2	1.000 1	0.000 1
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
CSC-Pretrain Inst.	0.209 4	0.361 5	0.157 4	0.085 4	0.700 5	0.248 5	0.634 5	0.776 5	0.322 2	0.135 5	0.103 5	0.000 3	0.524 5	0.364 5	0.618 2	0.592 3	0.381 5	0.997 3	0.589 4	0.747 4	0.340 5	0.109 5	0.768 2	0.059 5	0.702 5	0.448 2	0.188 5	0.149 5	0.091 5	0.636 3	0.573 5	0.000 3	0.246 3	0.500 2	0.000 3	0.450 5	0.405 3	0.667 4	0.006 5	0.000 3	0.356 4	0.007 3	0.506 2	0.420 3	0.340 3	0.667 5	0.294 2	0.004 4	0.571 4	0.748 2	0.000 2	1.000 1	0.573 4	0.502 4	0.094 4	0.807 3	0.000 4	0.000 3	0.400 3	0.000 5	0.278 5	0.228 3	1.000 1	0.000 1	0.115 5	0.432 4	0.198 3	0.050 5	0.125 2	0.000 2	0.000 5	0.573 3	0.000 3	0.000 2	0.000 1	0.000 2	0.000 3	0.125 4	0.312 4	0.610 3	0.221 1	0.000 3	0.667 4	0.050 4	0.000 2	0.000 1	0.000 3	0.032 5	0.000 1	0.000 3	0.083 3	0.000 3	0.000 3	0.000 4	0.000 2	0.220 4	0.000 5	0.125 3	0.000 5	0.111 5	0.000 1	0.667 2	0.200 3	0.000 2	0.000 1	0.000 4	0.110 3	0.000 1	0.000 3	0.000 3	0.000 1	0.000 4	0.053 5	0.500 4	0.000 5	0.000 4	0.500 1	0.000 1	0.500 4	0.333 4	0.500 4	0.000 1	0.000 3	0.000 3	0.000 3	0.000 2	0.000 3	0.000 5	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.600 2	0.000 1	0.364 2	0.000 1	0.000 3	0.750 1	0.000 1	0.833 1	0.000 1	0.000 1	0.143 5	0.000 5	0.396 2	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.021 5	0.221 4	0.000 3	0.093 5	0.055 4	0.451 2	0.677 2	0.125 2	0.000 2	0.000 1	0.028 4	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	0.000 2	0.050 4	0.000 2	0.000 2	0.000 2	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
Minkowski 34D Inst.	0.203 5	0.369 4	0.134 5	0.078 5	0.706 4	0.382 4	0.693 3	0.845 3	0.221 5	0.150 4	0.158 4	0.000 3	0.746 2	0.369 4	0.545 4	0.595 2	0.387 4	0.997 3	0.413 5	0.720 5	0.636 2	0.165 3	0.732 3	0.070 4	0.851 4	0.402 4	0.251 4	0.313 4	0.123 4	0.583 4	0.696 3	0.000 3	0.051 5	0.500 2	0.000 3	0.500 4	0.372 5	0.667 4	0.009 4	0.000 3	0.307 5	0.003 4	0.479 4	0.107 5	0.226 5	0.903 4	0.109 5	0.031 3	0.981 3	0.726 5	0.000 2	0.522 5	0.669 2	0.282 5	0.052 5	0.778 5	0.000 4	0.000 3	0.400 3	0.074 4	0.333 4	0.218 4	1.000 1	0.000 1	0.250 3	0.406 5	0.118 5	0.317 2	0.100 3	0.000 2	0.191 1	0.596 2	0.000 3	0.000 2	0.000 1	0.000 2	0.000 3	0.500 1	0.178 5	0.701 2	0.000 5	0.000 3	0.522 5	0.018 5	0.000 2	0.000 1	0.000 3	0.060 4	0.000 1	0.000 3	0.033 5	0.000 3	0.000 3	0.000 4	0.000 2	0.281 3	0.100 2	0.000 5	0.090 4	0.133 4	0.000 1	0.422 5	0.050 4	0.000 2	0.000 1	0.200 3	0.000 5	0.000 1	0.000 3	0.000 3	0.000 1	0.000 4	0.123 4	0.677 2	0.021 4	0.000 4	0.500 1	0.000 1	0.500 4	0.442 2	0.125 5	0.000 1	0.000 3	0.000 3	0.000 3	0.000 2	0.000 3	0.056 4	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.200 5	0.000 1	0.143 5	0.000 1	0.000 3	0.250 5	0.000 1	0.511 4	0.000 1	0.000 1	0.286 3	0.083 4	0.396 2	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.025 4	0.300 2	0.000 3	0.371 3	0.070 2	0.000 4	0.385 3	0.000 5	0.000 2	0.000 1	0.000 5	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	0.000 2	0.200 2	0.000 2	0.000 2	0.000 2	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019

ScanNet Benchmark

This table lists the benchmark results for the 3D semantic label scenario.

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

PTv3-PPT-ALC	0.798 1	0.911 10	0.812 20	0.854 6	0.770 11	0.856 13	0.555 13	0.943 1	0.660 23	0.735 2	0.979 1	0.606 6	0.492 1	0.792 3	0.934 3	0.841 2	0.819 4	0.716 7	0.947 9	0.906 1	0.822 1

PTv3 ScanNet	0.794 2	0.941 3	0.813 19	0.851 8	0.782 6	0.890 2	0.597 1	0.916 3	0.696 8	0.713 4	0.979 1	0.635 1	0.384 3	0.793 2	0.907 9	0.821 5	0.790 32	0.696 12	0.967 3	0.903 2	0.805 2
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
PonderV2	0.785 3	0.978 1	0.800 28	0.833 24	0.788 4	0.853 17	0.545 17	0.910 6	0.713 1	0.705 5	0.979 1	0.596 8	0.390 2	0.769 13	0.832 42	0.821 5	0.792 31	0.730 1	0.975 1	0.897 5	0.785 5
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
Mix3D	0.781 4	0.964 2	0.855 1	0.843 17	0.781 7	0.858 12	0.575 6	0.831 34	0.685 14	0.714 3	0.979 1	0.594 9	0.310 27	0.801 1	0.892 17	0.841 2	0.819 4	0.723 4	0.940 14	0.887 7	0.725 25
Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann: Mix3D: Out-of-Context Data Augmentation for 3D Scenes. 3DV 2021 (Oral)
Swin3D	0.779 5	0.861 21	0.818 14	0.836 21	0.790 3	0.875 4	0.576 5	0.905 7	0.704 5	0.739 1	0.969 11	0.611 2	0.349 11	0.756 23	0.958 1	0.702 46	0.805 15	0.708 8	0.916 33	0.898 4	0.801 3

TTT-KD	0.773 6	0.646 92	0.818 14	0.809 36	0.774 9	0.878 3	0.581 2	0.943 1	0.687 12	0.704 6	0.978 5	0.607 5	0.336 16	0.775 9	0.912 7	0.838 4	0.823 2	0.694 13	0.967 3	0.899 3	0.794 4
Lisa Weijler, Muhammad Jehanzeb Mirza, Leon Sick, Can Ekkazan, Pedro Hermosilla: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models.
ResLFE_HDS	0.772 7	0.939 4	0.824 6	0.854 6	0.771 10	0.840 31	0.564 10	0.900 9	0.686 13	0.677 13	0.961 17	0.537 32	0.348 12	0.769 13	0.903 11	0.785 11	0.815 7	0.676 23	0.939 15	0.880 12	0.772 9

PPT-SpUNet-Joint	0.766 8	0.932 5	0.794 34	0.829 26	0.751 23	0.854 15	0.540 21	0.903 8	0.630 35	0.672 16	0.963 15	0.565 22	0.357 9	0.788 4	0.900 13	0.737 26	0.802 16	0.685 18	0.950 7	0.887 7	0.780 6
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer	0.766 8	0.925 7	0.808 24	0.849 10	0.786 5	0.846 27	0.566 9	0.876 16	0.690 10	0.674 15	0.960 18	0.576 18	0.226 68	0.753 25	0.904 10	0.777 13	0.815 7	0.722 5	0.923 28	0.877 14	0.776 8
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
OccuSeg+Semantic	0.764 10	0.758 59	0.796 32	0.839 19	0.746 26	0.907 1	0.562 11	0.850 26	0.680 16	0.672 16	0.978 5	0.610 3	0.335 18	0.777 7	0.819 46	0.847 1	0.830 1	0.691 15	0.972 2	0.885 9	0.727 23

CU-Hybrid Net	0.764 10	0.924 8	0.819 12	0.840 18	0.757 18	0.853 17	0.580 3	0.848 27	0.709 3	0.643 25	0.958 22	0.587 13	0.295 34	0.753 25	0.884 21	0.758 20	0.815 7	0.725 3	0.927 25	0.867 23	0.743 16

O-CNN	0.762 12	0.924 8	0.823 7	0.844 16	0.770 11	0.852 19	0.577 4	0.847 29	0.711 2	0.640 29	0.958 22	0.592 10	0.217 74	0.762 18	0.888 18	0.758 20	0.813 11	0.726 2	0.932 23	0.868 22	0.744 15
Peng-Shuai Wang, Yang Liu, Yu-Xiao Guo, Chun-Yu Sun, Xin Tong: O-CNN: Octree-based Convolutional Neural Networks for 3D Shape Analysis. SIGGRAPH 2017
DTC	0.757 13	0.843 27	0.820 10	0.847 13	0.791 2	0.862 10	0.511 34	0.870 18	0.707 4	0.652 21	0.954 36	0.604 7	0.279 45	0.760 19	0.942 2	0.734 27	0.766 45	0.701 11	0.884 55	0.874 20	0.736 17

OA-CNN-L_ScanNet20	0.756 14	0.783 45	0.826 5	0.858 4	0.776 8	0.837 34	0.548 16	0.896 12	0.649 27	0.675 14	0.962 16	0.586 14	0.335 18	0.771 12	0.802 50	0.770 16	0.787 34	0.691 15	0.936 18	0.880 12	0.761 11

ConDaFormer	0.755 15	0.927 6	0.822 8	0.836 21	0.801 1	0.849 22	0.516 31	0.864 23	0.651 26	0.680 12	0.958 22	0.584 16	0.282 42	0.759 21	0.855 32	0.728 29	0.802 16	0.678 20	0.880 60	0.873 21	0.756 13
Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Guisong Xia, Dacheng Tao: ConDaFormer : Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding. Neurips, 2023
PNE	0.755 15	0.786 43	0.835 4	0.834 23	0.758 16	0.849 22	0.570 8	0.836 33	0.648 28	0.668 18	0.978 5	0.581 17	0.367 7	0.683 36	0.856 30	0.804 7	0.801 20	0.678 20	0.961 5	0.889 6	0.716 30
P. Hermosilla: Point Neighborhood Embeddings.
DMF-Net	0.752 17	0.906 13	0.793 36	0.802 42	0.689 41	0.825 47	0.556 12	0.867 19	0.681 15	0.602 45	0.960 18	0.555 28	0.365 8	0.779 6	0.859 27	0.747 23	0.795 28	0.717 6	0.917 32	0.856 31	0.764 10
C.Yang, Y.Yan, W.Zhao, J.Ye, X.Yang, A.Hussain, B.Dong, K.Huang: Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic Segmentation. ICONIP 2023
PointTransformerV2	0.752 17	0.742 67	0.809 23	0.872 1	0.758 16	0.860 11	0.552 14	0.891 14	0.610 42	0.687 7	0.960 18	0.559 26	0.304 30	0.766 16	0.926 5	0.767 17	0.797 24	0.644 34	0.942 12	0.876 17	0.722 27
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao: Point Transformer V2: Grouped Vector Attention and Partition-based Pooling. NeurIPS 2022
BPNet	0.749 19	0.909 11	0.818 14	0.811 34	0.752 21	0.839 33	0.485 48	0.842 30	0.673 18	0.644 24	0.957 26	0.528 38	0.305 29	0.773 10	0.859 27	0.788 9	0.818 6	0.693 14	0.916 33	0.856 31	0.723 26
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
PointConvFormer	0.749 19	0.793 41	0.790 37	0.807 38	0.750 25	0.856 13	0.524 27	0.881 15	0.588 54	0.642 28	0.977 9	0.591 11	0.274 48	0.781 5	0.929 4	0.804 7	0.796 25	0.642 35	0.947 9	0.885 9	0.715 31
Wenxuan Wu, Qi Shan, Li Fuxin: PointConvFormer: Revenge of the Point-based Convolution.
MSP	0.748 21	0.623 95	0.804 26	0.859 3	0.745 27	0.824 49	0.501 38	0.912 5	0.690 10	0.685 9	0.956 27	0.567 21	0.320 24	0.768 15	0.918 6	0.720 34	0.802 16	0.676 23	0.921 30	0.881 11	0.779 7

StratifiedFormer	0.747 22	0.901 14	0.803 27	0.845 15	0.757 18	0.846 27	0.512 33	0.825 37	0.696 8	0.645 23	0.956 27	0.576 18	0.262 59	0.744 30	0.861 26	0.742 24	0.770 43	0.705 9	0.899 45	0.860 28	0.734 18
Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia: Stratified Transformer for 3D Point Cloud Segmentation. CVPR 2022
Virtual MVFusion	0.746 23	0.771 53	0.819 12	0.848 12	0.702 38	0.865 9	0.397 86	0.899 10	0.699 6	0.664 19	0.948 56	0.588 12	0.330 20	0.746 29	0.851 36	0.764 18	0.796 25	0.704 10	0.935 19	0.866 24	0.728 21
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
VMNet	0.746 23	0.870 19	0.838 2	0.858 4	0.729 32	0.850 21	0.501 38	0.874 17	0.587 55	0.658 20	0.956 27	0.564 23	0.299 32	0.765 17	0.900 13	0.716 37	0.812 12	0.631 40	0.939 15	0.858 29	0.709 32
Zeyu HU, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai: VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation. ICCV 2021 (Oral)
DiffSeg3D2	0.745 25	0.725 76	0.814 18	0.837 20	0.751 23	0.831 41	0.514 32	0.896 12	0.674 17	0.684 10	0.960 18	0.564 23	0.303 31	0.773 10	0.820 45	0.713 40	0.798 23	0.690 17	0.923 28	0.875 18	0.757 12

Retro-FPN	0.744 26	0.842 28	0.800 28	0.767 56	0.740 28	0.836 36	0.541 19	0.914 4	0.672 19	0.626 33	0.958 22	0.552 29	0.272 50	0.777 7	0.886 20	0.696 47	0.801 20	0.674 26	0.941 13	0.858 29	0.717 28
Peng Xiang, Xin Wen, Yu-Shen Liu, Hui Zhang, Yi Fang, Zhizhong Han: Retrospective Feature Pyramid Network for Point Cloud Semantic Segmentation. ICCV 2023
EQ-Net	0.743 27	0.620 96	0.799 31	0.849 10	0.730 31	0.822 51	0.493 45	0.897 11	0.664 20	0.681 11	0.955 30	0.562 25	0.378 4	0.760 19	0.903 11	0.738 25	0.801 20	0.673 27	0.907 37	0.877 14	0.745 14
Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya JIa: A Unified Query-based Paradigm for Point Cloud Understanding. CVPR 2022
SAT	0.742 28	0.860 22	0.765 50	0.819 29	0.769 13	0.848 24	0.533 23	0.829 35	0.663 21	0.631 32	0.955 30	0.586 14	0.274 48	0.753 25	0.896 15	0.729 28	0.760 51	0.666 29	0.921 30	0.855 33	0.733 19

LRPNet	0.742 28	0.816 36	0.806 25	0.807 38	0.752 21	0.828 45	0.575 6	0.839 32	0.699 6	0.637 30	0.954 36	0.520 41	0.320 24	0.755 24	0.834 40	0.760 19	0.772 40	0.676 23	0.915 35	0.862 26	0.717 28

LargeKernel3D	0.739 30	0.909 11	0.820 10	0.806 40	0.740 28	0.852 19	0.545 17	0.826 36	0.594 53	0.643 25	0.955 30	0.541 31	0.263 58	0.723 34	0.858 29	0.775 15	0.767 44	0.678 20	0.933 21	0.848 38	0.694 37
Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia: LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs. CVPR 2023
RPN	0.736 31	0.776 49	0.790 37	0.851 8	0.754 20	0.854 15	0.491 47	0.866 21	0.596 52	0.686 8	0.955 30	0.536 33	0.342 14	0.624 51	0.869 23	0.787 10	0.802 16	0.628 41	0.927 25	0.875 18	0.704 34

MinkowskiNet	0.736 31	0.859 23	0.818 14	0.832 25	0.709 36	0.840 31	0.521 29	0.853 25	0.660 23	0.643 25	0.951 46	0.544 30	0.286 40	0.731 32	0.893 16	0.675 56	0.772 40	0.683 19	0.874 67	0.852 36	0.727 23
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
IPCA	0.731 33	0.890 15	0.837 3	0.864 2	0.726 33	0.873 5	0.530 26	0.824 38	0.489 88	0.647 22	0.978 5	0.609 4	0.336 16	0.624 51	0.733 59	0.758 20	0.776 38	0.570 66	0.949 8	0.877 14	0.728 21

PointTransformer++	0.725 34	0.727 75	0.811 22	0.819 29	0.765 14	0.841 30	0.502 37	0.814 43	0.621 38	0.623 35	0.955 30	0.556 27	0.284 41	0.620 53	0.866 24	0.781 12	0.757 55	0.648 32	0.932 23	0.862 26	0.709 32

SparseConvNet	0.725 34	0.647 91	0.821 9	0.846 14	0.721 34	0.869 6	0.533 23	0.754 59	0.603 48	0.614 37	0.955 30	0.572 20	0.325 22	0.710 35	0.870 22	0.724 32	0.823 2	0.628 41	0.934 20	0.865 25	0.683 40

MatchingNet	0.724 36	0.812 38	0.812 20	0.810 35	0.735 30	0.834 38	0.495 44	0.860 24	0.572 62	0.602 45	0.954 36	0.512 43	0.280 44	0.757 22	0.845 38	0.725 31	0.780 36	0.606 51	0.937 17	0.851 37	0.700 36

INS-Conv-semantic	0.717 37	0.751 62	0.759 53	0.812 33	0.704 37	0.868 7	0.537 22	0.842 30	0.609 44	0.608 41	0.953 40	0.534 35	0.293 35	0.616 54	0.864 25	0.719 36	0.793 29	0.640 36	0.933 21	0.845 42	0.663 46

PointMetaBase	0.714 38	0.835 29	0.785 39	0.821 27	0.684 43	0.846 27	0.531 25	0.865 22	0.614 39	0.596 49	0.953 40	0.500 46	0.246 64	0.674 37	0.888 18	0.692 48	0.764 47	0.624 43	0.849 82	0.844 43	0.675 42

contrastBoundary	0.705 39	0.769 56	0.775 44	0.809 36	0.687 42	0.820 54	0.439 74	0.812 44	0.661 22	0.591 51	0.945 64	0.515 42	0.171 92	0.633 48	0.856 30	0.720 34	0.796 25	0.668 28	0.889 52	0.847 39	0.689 38
Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao: Contrastive Boundary Learning for Point Cloud Segmentation. CVPR2022
ClickSeg_Semantic	0.703 40	0.774 51	0.800 28	0.793 47	0.760 15	0.847 26	0.471 52	0.802 47	0.463 95	0.634 31	0.968 13	0.491 49	0.271 52	0.726 33	0.910 8	0.706 42	0.815 7	0.551 78	0.878 61	0.833 44	0.570 78

RFCR	0.702 41	0.889 16	0.745 64	0.813 32	0.672 46	0.818 58	0.493 45	0.815 42	0.623 36	0.610 39	0.947 58	0.470 58	0.249 63	0.594 57	0.848 37	0.705 43	0.779 37	0.646 33	0.892 50	0.823 50	0.611 61
Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma: Omni-Supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning. CVPR2021
One Thing One Click	0.701 42	0.825 33	0.796 32	0.723 63	0.716 35	0.832 40	0.433 76	0.816 40	0.634 33	0.609 40	0.969 11	0.418 84	0.344 13	0.559 69	0.833 41	0.715 38	0.808 14	0.560 72	0.902 42	0.847 39	0.680 41

JSENet	0.699 43	0.881 18	0.762 51	0.821 27	0.667 47	0.800 70	0.522 28	0.792 50	0.613 40	0.607 42	0.935 84	0.492 48	0.205 79	0.576 62	0.853 34	0.691 50	0.758 53	0.652 31	0.872 70	0.828 47	0.649 50
Zeyu HU, Mingmin Zhen, Xuyang BAI, Hongbo Fu, Chiew-lan Tai: JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D Point Clouds. ECCV 2020
One-Thing-One-Click	0.693 44	0.743 66	0.794 34	0.655 86	0.684 43	0.822 51	0.497 43	0.719 69	0.622 37	0.617 36	0.977 9	0.447 71	0.339 15	0.750 28	0.664 75	0.703 45	0.790 32	0.596 56	0.946 11	0.855 33	0.647 51
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
PicassoNet-II	0.692 45	0.732 71	0.772 45	0.786 48	0.677 45	0.866 8	0.517 30	0.848 27	0.509 81	0.626 33	0.952 44	0.536 33	0.225 70	0.545 75	0.704 66	0.689 53	0.810 13	0.564 71	0.903 41	0.854 35	0.729 20
Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian: Geometric feature learning for 3D meshes.
Feature_GeometricNet	0.690 46	0.884 17	0.754 57	0.795 45	0.647 54	0.818 58	0.422 78	0.802 47	0.612 41	0.604 43	0.945 64	0.462 61	0.189 87	0.563 68	0.853 34	0.726 30	0.765 46	0.632 39	0.904 39	0.821 53	0.606 65
Kangcheng Liu, Ben M. Chen: https://arxiv.org/abs/2012.09439. arXiv Preprint
FusionNet	0.688 47	0.704 81	0.741 68	0.754 60	0.656 49	0.829 43	0.501 38	0.741 64	0.609 44	0.548 59	0.950 50	0.522 40	0.371 5	0.633 48	0.756 54	0.715 38	0.771 42	0.623 44	0.861 78	0.814 56	0.658 47
Feihu Zhang, Jin Fang, Benjamin Wah, Philip Torr: Deep FusionNet for Point Cloud Semantic Segmentation. ECCV 2020
Feature-Geometry Net	0.685 48	0.866 20	0.748 61	0.819 29	0.645 56	0.794 73	0.450 64	0.802 47	0.587 55	0.604 43	0.945 64	0.464 60	0.201 82	0.554 71	0.840 39	0.723 33	0.732 65	0.602 54	0.907 37	0.822 52	0.603 68

VACNN++	0.684 49	0.728 74	0.757 56	0.776 53	0.690 39	0.804 68	0.464 57	0.816 40	0.577 61	0.587 52	0.945 64	0.508 45	0.276 47	0.671 38	0.710 64	0.663 61	0.750 59	0.589 61	0.881 58	0.832 46	0.653 49

DGNet	0.684 49	0.712 80	0.784 40	0.782 52	0.658 48	0.835 37	0.499 42	0.823 39	0.641 30	0.597 48	0.950 50	0.487 51	0.281 43	0.575 63	0.619 79	0.647 69	0.764 47	0.620 46	0.871 73	0.846 41	0.688 39

KP-FCNN	0.684 49	0.847 26	0.758 55	0.784 50	0.647 54	0.814 61	0.473 51	0.772 53	0.605 46	0.594 50	0.935 84	0.450 69	0.181 90	0.587 58	0.805 49	0.690 51	0.785 35	0.614 47	0.882 57	0.819 54	0.632 57
H. Thomas, C. Qi, J. Deschaud, B. Marcotegui, F. Goulette, L. Guibas.: KPConv: Flexible and Deformable Convolution for Point Clouds. ICCV 2019
Superpoint Network	0.683 52	0.851 25	0.728 72	0.800 44	0.653 51	0.806 66	0.468 54	0.804 45	0.572 62	0.602 45	0.946 61	0.453 68	0.239 67	0.519 80	0.822 43	0.689 53	0.762 50	0.595 58	0.895 48	0.827 48	0.630 58

PointContrast_LA_SEM	0.683 52	0.757 60	0.784 40	0.786 48	0.639 58	0.824 49	0.408 81	0.775 52	0.604 47	0.541 61	0.934 88	0.532 36	0.269 54	0.552 72	0.777 52	0.645 72	0.793 29	0.640 36	0.913 36	0.824 49	0.671 43

VI-PointConv	0.676 54	0.770 55	0.754 57	0.783 51	0.621 62	0.814 61	0.552 14	0.758 57	0.571 64	0.557 57	0.954 36	0.529 37	0.268 56	0.530 78	0.682 70	0.675 56	0.719 68	0.603 53	0.888 53	0.833 44	0.665 45
Xingyi Li, Wenxuan Wu, Xiaoli Z. Fern, Li Fuxin: The Devils in the Point Clouds: Studying the Robustness of Point Cloud Convolutions.
ROSMRF3D	0.673 55	0.789 42	0.748 61	0.763 58	0.635 60	0.814 61	0.407 83	0.747 61	0.581 59	0.573 54	0.950 50	0.484 52	0.271 52	0.607 55	0.754 55	0.649 66	0.774 39	0.596 56	0.883 56	0.823 50	0.606 65

SALANet	0.670 56	0.816 36	0.770 48	0.768 55	0.652 52	0.807 65	0.451 61	0.747 61	0.659 25	0.545 60	0.924 94	0.473 57	0.149 102	0.571 65	0.811 48	0.635 75	0.746 60	0.623 44	0.892 50	0.794 69	0.570 78

O3DSeg	0.668 57	0.822 34	0.771 47	0.496 106	0.651 53	0.833 39	0.541 19	0.761 56	0.555 70	0.611 38	0.966 14	0.489 50	0.370 6	0.388 100	0.580 82	0.776 14	0.751 57	0.570 66	0.956 6	0.817 55	0.646 52

PointASNL	0.666 58	0.703 82	0.781 42	0.751 62	0.655 50	0.830 42	0.471 52	0.769 54	0.474 91	0.537 63	0.951 46	0.475 56	0.279 45	0.635 46	0.698 69	0.675 56	0.751 57	0.553 77	0.816 89	0.806 60	0.703 35
Xu Yan, Chaoda Zheng, Zhen Li, Sheng Wang, Shuguang Cui: PointASNL: Robust Point Clouds Processing using Nonlocal Neural Networks with Adaptive Sampling. CVPR 2020
PointConv	0.666 58	0.781 46	0.759 53	0.699 71	0.644 57	0.822 51	0.475 50	0.779 51	0.564 67	0.504 77	0.953 40	0.428 78	0.203 81	0.586 60	0.754 55	0.661 62	0.753 56	0.588 62	0.902 42	0.813 58	0.642 53
Wenxuan Wu, Zhongang Qi, Li Fuxin: PointConv: Deep Convolutional Networks on 3D Point Clouds. CVPR 2019
PPCNN++	0.663 60	0.746 64	0.708 75	0.722 64	0.638 59	0.820 54	0.451 61	0.566 97	0.599 50	0.541 61	0.950 50	0.510 44	0.313 26	0.648 43	0.819 46	0.616 80	0.682 83	0.590 60	0.869 74	0.810 59	0.656 48
Pyunghwan Ahn, Juyoung Yang, Eojindl Yi, Chanho Lee, Junmo Kim: Projection-based Point Convolution for Efficient Point Cloud Segmentation. IEEE Access
DCM-Net	0.658 61	0.778 47	0.702 78	0.806 40	0.619 63	0.813 64	0.468 54	0.693 77	0.494 84	0.524 69	0.941 76	0.449 70	0.298 33	0.510 82	0.821 44	0.675 56	0.727 67	0.568 69	0.826 87	0.803 63	0.637 55
Jonas Schult, Francis Engelmann, Theodora Kontogianni, Bastian Leibe: DualConvMesh-Net: Joint Geodesic and Euclidean Convolutions on 3D Meshes. CVPR 2020 [Oral]
MVF-GNN	0.658 61	0.558 103	0.751 59	0.655 86	0.690 39	0.722 95	0.453 60	0.867 19	0.579 60	0.576 53	0.893 106	0.523 39	0.293 35	0.733 31	0.571 84	0.692 48	0.659 90	0.606 51	0.875 64	0.804 62	0.668 44

HPGCNN	0.656 63	0.698 84	0.743 66	0.650 88	0.564 80	0.820 54	0.505 36	0.758 57	0.631 34	0.479 81	0.945 64	0.480 54	0.226 68	0.572 64	0.774 53	0.690 51	0.735 63	0.614 47	0.853 81	0.776 84	0.597 71
Jisheng Dang, Qingyong Hu, Yulan Guo, Jun Yang: HPGCNN.
SAFNet-seg	0.654 64	0.752 61	0.734 70	0.664 84	0.583 75	0.815 60	0.399 85	0.754 59	0.639 31	0.535 65	0.942 74	0.470 58	0.309 28	0.665 39	0.539 86	0.650 65	0.708 73	0.635 38	0.857 80	0.793 71	0.642 53
Linqing Zhao, Jiwen Lu, Jie Zhou: Similarity-Aware Fusion Network for 3D Semantic Segmentation. IROS 2021
RandLA-Net	0.645 65	0.778 47	0.731 71	0.699 71	0.577 76	0.829 43	0.446 66	0.736 65	0.477 90	0.523 71	0.945 64	0.454 65	0.269 54	0.484 90	0.749 58	0.618 78	0.738 61	0.599 55	0.827 86	0.792 74	0.621 60

PointConv-SFPN	0.641 66	0.776 49	0.703 77	0.721 65	0.557 83	0.826 46	0.451 61	0.672 82	0.563 68	0.483 80	0.943 73	0.425 81	0.162 97	0.644 44	0.726 60	0.659 63	0.709 72	0.572 65	0.875 64	0.786 79	0.559 84

MVPNet	0.641 66	0.831 30	0.715 73	0.671 81	0.590 71	0.781 79	0.394 87	0.679 79	0.642 29	0.553 58	0.937 81	0.462 61	0.256 60	0.649 42	0.406 100	0.626 76	0.691 80	0.666 29	0.877 62	0.792 74	0.608 64
Maximilian Jaritz, Jiayuan Gu, Hao Su: Multi-view PointNet for 3D Scene Understanding. GMDL Workshop, ICCV 2019
PointMRNet	0.640 68	0.717 79	0.701 79	0.692 74	0.576 77	0.801 69	0.467 56	0.716 70	0.563 68	0.459 87	0.953 40	0.429 77	0.169 94	0.581 61	0.854 33	0.605 81	0.710 70	0.550 79	0.894 49	0.793 71	0.575 76

FPConv	0.639 69	0.785 44	0.760 52	0.713 69	0.603 66	0.798 71	0.392 88	0.534 102	0.603 48	0.524 69	0.948 56	0.457 63	0.250 62	0.538 76	0.723 62	0.598 85	0.696 78	0.614 47	0.872 70	0.799 64	0.567 81
Yiqun Lin, Zizheng Yan, Haibin Huang, Dong Du, Ligang Liu, Shuguang Cui, Xiaoguang Han: FPConv: Learning Local Flattening for Point Convolution. CVPR 2020
PD-Net	0.638 70	0.797 40	0.769 49	0.641 94	0.590 71	0.820 54	0.461 58	0.537 101	0.637 32	0.536 64	0.947 58	0.388 91	0.206 78	0.656 40	0.668 73	0.647 69	0.732 65	0.585 63	0.868 75	0.793 71	0.473 104

PointSPNet	0.637 71	0.734 70	0.692 86	0.714 68	0.576 77	0.797 72	0.446 66	0.743 63	0.598 51	0.437 92	0.942 74	0.403 87	0.150 101	0.626 50	0.800 51	0.649 66	0.697 77	0.557 75	0.846 83	0.777 83	0.563 82

SConv	0.636 72	0.830 31	0.697 82	0.752 61	0.572 79	0.780 81	0.445 68	0.716 70	0.529 74	0.530 66	0.951 46	0.446 72	0.170 93	0.507 85	0.666 74	0.636 74	0.682 83	0.541 85	0.886 54	0.799 64	0.594 72

Supervoxel-CNN	0.635 73	0.656 89	0.711 74	0.719 66	0.613 64	0.757 90	0.444 71	0.765 55	0.534 73	0.566 55	0.928 92	0.478 55	0.272 50	0.636 45	0.531 88	0.664 60	0.645 94	0.508 92	0.864 77	0.792 74	0.611 61

joint point-based	0.634 74	0.614 97	0.778 43	0.667 83	0.633 61	0.825 47	0.420 79	0.804 45	0.467 93	0.561 56	0.951 46	0.494 47	0.291 37	0.566 66	0.458 95	0.579 91	0.764 47	0.559 74	0.838 84	0.814 56	0.598 70
Hung-Yueh Chiang, Yen-Liang Lin, Yueh-Cheng Liu, Winston H. Hsu: A Unified Point-Based Framework for 3D Segmentation. 3DV 2019
PointMTL	0.632 75	0.731 72	0.688 89	0.675 78	0.591 70	0.784 78	0.444 71	0.565 98	0.610 42	0.492 78	0.949 54	0.456 64	0.254 61	0.587 58	0.706 65	0.599 84	0.665 89	0.612 50	0.868 75	0.791 77	0.579 75

3DSM_DMMF	0.631 76	0.626 94	0.745 64	0.801 43	0.607 65	0.751 91	0.506 35	0.729 68	0.565 66	0.491 79	0.866 109	0.434 73	0.197 85	0.595 56	0.630 78	0.709 41	0.705 75	0.560 72	0.875 64	0.740 94	0.491 99

PointNet2-SFPN	0.631 76	0.771 53	0.692 86	0.672 79	0.524 88	0.837 34	0.440 73	0.706 75	0.538 72	0.446 89	0.944 70	0.421 83	0.219 73	0.552 72	0.751 57	0.591 87	0.737 62	0.543 84	0.901 44	0.768 86	0.557 85

APCF-Net	0.631 76	0.742 67	0.687 91	0.672 79	0.557 83	0.792 76	0.408 81	0.665 83	0.545 71	0.508 74	0.952 44	0.428 78	0.186 88	0.634 47	0.702 67	0.620 77	0.706 74	0.555 76	0.873 68	0.798 66	0.581 74
Haojia, Lin: Adaptive Pyramid Context Fusion for Point Cloud Perception. GRSL
FusionAwareConv	0.630 79	0.604 99	0.741 68	0.766 57	0.590 71	0.747 92	0.501 38	0.734 66	0.503 83	0.527 67	0.919 98	0.454 65	0.323 23	0.550 74	0.420 99	0.678 55	0.688 81	0.544 82	0.896 47	0.795 68	0.627 59
Jiazhao Zhang, Chenyang Zhu, Lintao Zheng, Kai Xu: Fusion-Aware Point Convolution for Online Semantic 3D Scene Segmentation. CVPR 2020
DenSeR	0.628 80	0.800 39	0.625 102	0.719 66	0.545 85	0.806 66	0.445 68	0.597 91	0.448 98	0.519 72	0.938 80	0.481 53	0.328 21	0.489 89	0.499 93	0.657 64	0.759 52	0.592 59	0.881 58	0.797 67	0.634 56

SegGroup_sem	0.627 81	0.818 35	0.747 63	0.701 70	0.602 67	0.764 87	0.385 92	0.629 88	0.490 86	0.508 74	0.931 91	0.409 86	0.201 82	0.564 67	0.725 61	0.618 78	0.692 79	0.539 86	0.873 68	0.794 69	0.548 88
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
SIConv	0.625 82	0.830 31	0.694 84	0.757 59	0.563 81	0.772 85	0.448 65	0.647 86	0.520 77	0.509 73	0.949 54	0.431 76	0.191 86	0.496 87	0.614 80	0.647 69	0.672 87	0.535 88	0.876 63	0.783 80	0.571 77

dtc_net	0.625 82	0.703 82	0.751 59	0.794 46	0.535 86	0.848 24	0.480 49	0.676 81	0.528 75	0.469 84	0.944 70	0.454 65	0.004 115	0.464 92	0.636 77	0.704 44	0.758 53	0.548 81	0.924 27	0.787 78	0.492 98

HPEIN	0.618 84	0.729 73	0.668 92	0.647 90	0.597 69	0.766 86	0.414 80	0.680 78	0.520 77	0.525 68	0.946 61	0.432 74	0.215 75	0.493 88	0.599 81	0.638 73	0.617 99	0.570 66	0.897 46	0.806 60	0.605 67
Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi-Wing Fu, Jiaya Jia: Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation. ICCV 2019
SPH3D-GCN	0.610 85	0.858 24	0.772 45	0.489 107	0.532 87	0.792 76	0.404 84	0.643 87	0.570 65	0.507 76	0.935 84	0.414 85	0.046 112	0.510 82	0.702 67	0.602 83	0.705 75	0.549 80	0.859 79	0.773 85	0.534 91
Huan Lei, Naveed Akhtar, and Ajmal Mian: Spherical Kernel for Efficient Graph Convolution on 3D Point Clouds. TPAMI 2020
AttAN	0.609 86	0.760 58	0.667 93	0.649 89	0.521 89	0.793 74	0.457 59	0.648 85	0.528 75	0.434 94	0.947 58	0.401 88	0.153 100	0.454 93	0.721 63	0.648 68	0.717 69	0.536 87	0.904 39	0.765 87	0.485 100
Gege Zhang, Qinghua Ma, Licheng Jiao, Fang Liu and Qigong Sun: AttAN: Attention Adversarial Networks for 3D Point Cloud Semantic Segmentation. IJCAI2020
wsss-transformer	0.600 87	0.634 93	0.743 66	0.697 73	0.601 68	0.781 79	0.437 75	0.585 94	0.493 85	0.446 89	0.933 89	0.394 89	0.011 114	0.654 41	0.661 76	0.603 82	0.733 64	0.526 89	0.832 85	0.761 89	0.480 101

LAP-D	0.594 88	0.720 77	0.692 86	0.637 95	0.456 99	0.773 84	0.391 90	0.730 67	0.587 55	0.445 91	0.940 78	0.381 92	0.288 38	0.434 96	0.453 97	0.591 87	0.649 92	0.581 64	0.777 93	0.749 93	0.610 63

DPC	0.592 89	0.720 77	0.700 80	0.602 99	0.480 95	0.762 89	0.380 93	0.713 73	0.585 58	0.437 92	0.940 78	0.369 94	0.288 38	0.434 96	0.509 92	0.590 89	0.639 97	0.567 70	0.772 95	0.755 91	0.592 73
Francis Engelmann, Theodora Kontogianni, Bastian Leibe: Dilated Point Convolutions: On the Receptive Field Size of Point Convolutions on 3D Point Clouds. ICRA 2020
CCRFNet	0.589 90	0.766 57	0.659 97	0.683 76	0.470 98	0.740 94	0.387 91	0.620 90	0.490 86	0.476 82	0.922 96	0.355 97	0.245 65	0.511 81	0.511 91	0.571 92	0.643 95	0.493 96	0.872 70	0.762 88	0.600 69

ROSMRF	0.580 91	0.772 52	0.707 76	0.681 77	0.563 81	0.764 87	0.362 95	0.515 103	0.465 94	0.465 86	0.936 83	0.427 80	0.207 77	0.438 94	0.577 83	0.536 95	0.675 86	0.486 97	0.723 101	0.779 81	0.524 94

SD-DETR	0.576 92	0.746 64	0.609 106	0.445 111	0.517 90	0.643 106	0.366 94	0.714 72	0.456 96	0.468 85	0.870 108	0.432 74	0.264 57	0.558 70	0.674 71	0.586 90	0.688 81	0.482 98	0.739 99	0.733 96	0.537 90

SQN_0.1%	0.569 93	0.676 86	0.696 83	0.657 85	0.497 91	0.779 82	0.424 77	0.548 99	0.515 79	0.376 99	0.902 105	0.422 82	0.357 9	0.379 101	0.456 96	0.596 86	0.659 90	0.544 82	0.685 104	0.665 107	0.556 86

TextureNet	0.566 94	0.672 88	0.664 94	0.671 81	0.494 93	0.719 96	0.445 68	0.678 80	0.411 104	0.396 97	0.935 84	0.356 96	0.225 70	0.412 98	0.535 87	0.565 93	0.636 98	0.464 100	0.794 92	0.680 104	0.568 80
Jingwei Huang, Haotian Zhang, Li Yi, Thomas Funkerhouser, Matthias Niessner, Leonidas Guibas: TextureNet: Consistent Local Parametrizations for Learning from High-Resolution Signals on Meshes. CVPR
DVVNet	0.562 95	0.648 90	0.700 80	0.770 54	0.586 74	0.687 100	0.333 99	0.650 84	0.514 80	0.475 83	0.906 102	0.359 95	0.223 72	0.340 103	0.442 98	0.422 106	0.668 88	0.501 93	0.708 102	0.779 81	0.534 91

Pointnet++ & Feature	0.557 96	0.735 69	0.661 96	0.686 75	0.491 94	0.744 93	0.392 88	0.539 100	0.451 97	0.375 100	0.946 61	0.376 93	0.205 79	0.403 99	0.356 103	0.553 94	0.643 95	0.497 94	0.824 88	0.756 90	0.515 95

GMLPs	0.538 97	0.495 108	0.693 85	0.647 90	0.471 97	0.793 74	0.300 102	0.477 104	0.505 82	0.358 102	0.903 104	0.327 100	0.081 109	0.472 91	0.529 89	0.448 104	0.710 70	0.509 90	0.746 97	0.737 95	0.554 87

PanopticFusion-label	0.529 98	0.491 109	0.688 89	0.604 98	0.386 104	0.632 107	0.225 112	0.705 76	0.434 101	0.293 108	0.815 110	0.348 98	0.241 66	0.499 86	0.669 72	0.507 97	0.649 92	0.442 106	0.796 91	0.602 111	0.561 83
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
subcloud_weak	0.516 99	0.676 86	0.591 109	0.609 96	0.442 100	0.774 83	0.335 98	0.597 91	0.422 103	0.357 103	0.932 90	0.341 99	0.094 108	0.298 105	0.528 90	0.473 102	0.676 85	0.495 95	0.602 110	0.721 99	0.349 111

Online SegFusion	0.515 100	0.607 98	0.644 100	0.579 101	0.434 101	0.630 108	0.353 96	0.628 89	0.440 99	0.410 95	0.762 114	0.307 102	0.167 95	0.520 79	0.403 101	0.516 96	0.565 102	0.447 104	0.678 105	0.701 101	0.514 96
Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstroem, Cristian Sminchisescu, Luc van Gool: A Real-Time Learning Framework for Joint 3D Reconstruction and Semantic Segmentation. Robotics and Automation Letters Submission
3DMV, FTSDF	0.501 101	0.558 103	0.608 107	0.424 113	0.478 96	0.690 99	0.246 108	0.586 93	0.468 92	0.450 88	0.911 100	0.394 89	0.160 98	0.438 94	0.212 110	0.432 105	0.541 108	0.475 99	0.742 98	0.727 97	0.477 102

PCNN	0.498 102	0.559 102	0.644 100	0.560 103	0.420 103	0.711 98	0.229 110	0.414 105	0.436 100	0.352 104	0.941 76	0.324 101	0.155 99	0.238 110	0.387 102	0.493 98	0.529 109	0.509 90	0.813 90	0.751 92	0.504 97

Weakly-Openseg v3	0.489 103	0.749 63	0.664 94	0.646 92	0.496 92	0.559 112	0.122 115	0.577 95	0.257 115	0.364 101	0.805 111	0.198 113	0.096 107	0.510 82	0.496 94	0.361 110	0.563 103	0.359 113	0.777 93	0.644 108	0.532 93

3DMV	0.484 104	0.484 110	0.538 111	0.643 93	0.424 102	0.606 111	0.310 100	0.574 96	0.433 102	0.378 98	0.796 112	0.301 103	0.214 76	0.537 77	0.208 111	0.472 103	0.507 112	0.413 109	0.693 103	0.602 111	0.539 89
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
PointCNN with RGB	0.458 105	0.577 101	0.611 105	0.356 115	0.321 112	0.715 97	0.299 104	0.376 109	0.328 111	0.319 106	0.944 70	0.285 105	0.164 96	0.216 113	0.229 108	0.484 100	0.545 107	0.456 102	0.755 96	0.709 100	0.475 103
Yangyan Li, Rui Bu, Mingchao Sun, Baoquan Chen: PointCNN. NeurIPS 2018
FCPN	0.447 106	0.679 85	0.604 108	0.578 102	0.380 105	0.682 101	0.291 105	0.106 115	0.483 89	0.258 113	0.920 97	0.258 109	0.025 113	0.231 112	0.325 104	0.480 101	0.560 105	0.463 101	0.725 100	0.666 106	0.231 115
Dario Rethage, Johanna Wald, Jürgen Sturm, Nassir Navab, Federico Tombari: Fully-Convolutional Point Networks for Large-Scale Point Clouds. ECCV 2018
DGCNN_reproduce	0.446 107	0.474 111	0.623 103	0.463 109	0.366 107	0.651 104	0.310 100	0.389 108	0.349 109	0.330 105	0.937 81	0.271 107	0.126 104	0.285 106	0.224 109	0.350 112	0.577 101	0.445 105	0.625 108	0.723 98	0.394 107
Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E. Sarma, Michael M. Bronstein, Justin M. Solomon: Dynamic Graph CNN for Learning on Point Clouds. TOG 2019
PNET2	0.442 108	0.548 105	0.548 110	0.597 100	0.363 108	0.628 109	0.300 102	0.292 110	0.374 106	0.307 107	0.881 107	0.268 108	0.186 88	0.238 110	0.204 112	0.407 107	0.506 113	0.449 103	0.667 106	0.620 110	0.462 105

SurfaceConvPF	0.442 108	0.505 107	0.622 104	0.380 114	0.342 110	0.654 103	0.227 111	0.397 107	0.367 107	0.276 110	0.924 94	0.240 110	0.198 84	0.359 102	0.262 106	0.366 108	0.581 100	0.435 107	0.640 107	0.668 105	0.398 106
Hao Pan, Shilin Liu, Yang Liu, Xin Tong: Convolutional Neural Networks on 3D Surfaces Using Parallel Frames.
Tangent Convolutions	0.438 110	0.437 113	0.646 99	0.474 108	0.369 106	0.645 105	0.353 96	0.258 112	0.282 113	0.279 109	0.918 99	0.298 104	0.147 103	0.283 107	0.294 105	0.487 99	0.562 104	0.427 108	0.619 109	0.633 109	0.352 110
Maxim Tatarchenko, Jaesik Park, Vladlen Koltun, Qian-Yi Zhou: Tangent convolutions for dense prediction in 3d. CVPR 2018
3DWSSS	0.425 111	0.525 106	0.647 98	0.522 104	0.324 111	0.488 115	0.077 116	0.712 74	0.353 108	0.401 96	0.636 116	0.281 106	0.176 91	0.340 103	0.565 85	0.175 116	0.551 106	0.398 110	0.370 116	0.602 111	0.361 109

SPLAT Net	0.393 112	0.472 112	0.511 112	0.606 97	0.311 113	0.656 102	0.245 109	0.405 106	0.328 111	0.197 114	0.927 93	0.227 112	0.000 117	0.001 117	0.249 107	0.271 115	0.510 110	0.383 112	0.593 111	0.699 102	0.267 113
Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz: SPLATNet: Sparse Lattice Networks for Point Cloud Processing. CVPR 2018
ScanNet+FTSDF	0.383 113	0.297 115	0.491 113	0.432 112	0.358 109	0.612 110	0.274 106	0.116 114	0.411 104	0.265 111	0.904 103	0.229 111	0.079 110	0.250 108	0.185 113	0.320 113	0.510 110	0.385 111	0.548 112	0.597 114	0.394 107

PointNet++	0.339 114	0.584 100	0.478 114	0.458 110	0.256 115	0.360 116	0.250 107	0.247 113	0.278 114	0.261 112	0.677 115	0.183 114	0.117 105	0.212 114	0.145 115	0.364 109	0.346 116	0.232 116	0.548 112	0.523 115	0.252 114
Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas: pointnet++: deep hierarchical feature learning on point sets in a metric space.
SSC-UNet	0.308 115	0.353 114	0.290 116	0.278 116	0.166 116	0.553 113	0.169 114	0.286 111	0.147 116	0.148 116	0.908 101	0.182 115	0.064 111	0.023 116	0.018 117	0.354 111	0.363 114	0.345 114	0.546 114	0.685 103	0.278 112

ScanNet	0.306 116	0.203 116	0.366 115	0.501 105	0.311 113	0.524 114	0.211 113	0.002 117	0.342 110	0.189 115	0.786 113	0.145 116	0.102 106	0.245 109	0.152 114	0.318 114	0.348 115	0.300 115	0.460 115	0.437 116	0.182 116
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17
ERROR	0.054 117	0.000 117	0.041 117	0.172 117	0.030 117	0.062 117	0.001 117	0.035 116	0.004 117	0.051 117	0.143 117	0.019 117	0.003 116	0.041 115	0.050 116	0.003 117	0.054 117	0.018 117	0.005 117	0.264 117	0.082 117

This table lists the benchmark results for the 3D semantic instance scenario.

Method	avg ap 50%	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

PointRel	0.816 1	1.000 1	0.971 6	0.908 6	0.743 2	0.923 5	0.573 6	0.714 22	0.695 16	0.734 8	0.747 2	0.725 9	0.809 1	1.000 1	0.814 7	0.899 3	0.820 3	1.000 1	0.610 16
: Relation3D (PointRel): Enhancing Relation Modeling for Point Cloud Instance Segmentation.
Spherical Mask(CtoF)	0.812 2	1.000 1	0.973 5	0.852 13	0.718 5	0.917 7	0.574 4	0.677 28	0.748 10	0.729 12	0.715 6	0.795 2	0.809 1	1.000 1	0.831 3	0.854 9	0.787 10	1.000 1	0.638 5

EV3D	0.811 3	1.000 1	0.968 7	0.852 13	0.717 6	0.921 6	0.574 5	0.677 28	0.748 10	0.730 11	0.703 11	0.795 2	0.809 1	1.000 1	0.831 3	0.854 9	0.778 14	1.000 1	0.638 6

SIM3D	0.803 4	1.000 1	0.967 8	0.863 12	0.692 16	0.924 4	0.552 9	0.732 21	0.667 20	0.732 10	0.662 14	0.796 1	0.789 9	1.000 1	0.803 8	0.864 6	0.766 19	1.000 1	0.643 4

OneFormer3D	0.801 5	1.000 1	0.973 4	0.909 5	0.698 13	0.928 2	0.582 3	0.668 33	0.685 17	0.780 2	0.687 12	0.698 17	0.702 14	1.000 1	0.794 10	0.900 2	0.784 12	0.986 50	0.635 7
Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: OneFormer3D: One Transformer for Unified Point Cloud Segmentation.
Competitor-SPFormer	0.800 6	1.000 1	0.986 2	0.845 15	0.705 11	0.915 8	0.532 11	0.733 20	0.757 9	0.733 9	0.708 8	0.698 16	0.648 33	0.981 36	0.890 1	0.830 18	0.796 7	0.997 37	0.644 3

UniPerception	0.800 6	1.000 1	0.930 10	0.872 10	0.727 4	0.862 22	0.454 17	0.764 13	0.820 1	0.746 6	0.706 9	0.750 5	0.772 10	0.926 43	0.764 16	0.818 26	0.826 1	0.997 37	0.660 2

InsSSM	0.799 8	1.000 1	0.915 12	0.710 39	0.729 3	0.925 3	0.664 1	0.670 31	0.770 6	0.766 3	0.739 3	0.737 6	0.700 15	1.000 1	0.792 11	0.829 20	0.815 4	0.997 37	0.625 9

TST3D	0.795 9	1.000 1	0.929 11	0.918 4	0.709 9	0.884 17	0.596 2	0.704 25	0.769 7	0.734 7	0.644 19	0.699 15	0.751 12	1.000 1	0.794 9	0.876 5	0.757 21	0.997 37	0.550 30
Duc Tran Dang Trung, Byeongkeun Kang, Yeejin Lee: MSTA3D: Multi-scale Twin-attention for 3D Instance Segmentation. ACM Multimedia 2024
MG-Former	0.791 10	1.000 1	0.980 3	0.837 18	0.626 24	0.897 10	0.543 10	0.759 15	0.800 5	0.766 4	0.659 15	0.769 4	0.697 18	1.000 1	0.791 12	0.707 46	0.791 9	1.000 1	0.610 15

ExtMask3D	0.789 11	1.000 1	0.988 1	0.756 32	0.706 10	0.912 9	0.429 18	0.647 38	0.806 4	0.755 5	0.673 13	0.689 18	0.772 11	1.000 1	0.789 13	0.852 11	0.811 5	1.000 1	0.617 12

Queryformer	0.787 12	1.000 1	0.933 9	0.601 48	0.754 1	0.886 15	0.558 8	0.661 35	0.767 8	0.665 17	0.716 5	0.639 23	0.808 5	1.000 1	0.844 2	0.897 4	0.804 6	1.000 1	0.624 10

MAFT	0.786 13	1.000 1	0.894 17	0.807 22	0.694 15	0.893 13	0.486 13	0.674 30	0.740 12	0.786 1	0.704 10	0.727 8	0.739 13	1.000 1	0.707 22	0.849 13	0.756 22	1.000 1	0.685 1

Mask3D	0.780 14	1.000 1	0.786 41	0.716 37	0.696 14	0.885 16	0.500 12	0.714 22	0.810 3	0.672 16	0.715 6	0.679 19	0.809 1	1.000 1	0.831 3	0.833 17	0.787 10	1.000 1	0.602 18
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
SPFormer	0.770 15	0.903 54	0.903 14	0.806 23	0.609 30	0.886 14	0.568 7	0.815 6	0.705 15	0.711 13	0.655 16	0.652 22	0.685 21	1.000 1	0.789 14	0.809 27	0.776 16	1.000 1	0.583 23
Sun Jiahao, Qing Chunmei, Tan Junpeng, Xu Xiangmin: Superpoint Transformer for 3D Scene Instance Segmentation. AAAI 2023 [Oral]
SoftGroup++	0.769 16	1.000 1	0.803 34	0.937 1	0.684 17	0.865 19	0.213 33	0.870 2	0.664 21	0.571 23	0.758 1	0.702 13	0.807 6	1.000 1	0.653 29	0.902 1	0.792 8	1.000 1	0.626 8

SoftGroup	0.761 17	1.000 1	0.808 30	0.845 15	0.716 7	0.862 21	0.243 30	0.824 4	0.655 23	0.620 18	0.734 4	0.699 14	0.791 8	0.981 36	0.716 20	0.844 14	0.769 17	1.000 1	0.594 21
Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo: SoftGroup for 3D Instance Segmentaiton on Point Clouds. CVPR 2022 [Oral]
ISBNet	0.757 18	1.000 1	0.904 13	0.731 35	0.678 18	0.895 11	0.458 15	0.644 40	0.670 19	0.710 14	0.620 24	0.732 7	0.650 23	1.000 1	0.756 17	0.778 30	0.779 13	1.000 1	0.614 13
Tuan Duc Ngo, Binh-Son Hua, Khoi Nguyen: ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution. CVPR 2023
TD3D	0.751 19	1.000 1	0.774 42	0.867 11	0.621 26	0.934 1	0.404 19	0.706 24	0.812 2	0.605 21	0.633 22	0.626 24	0.690 20	1.000 1	0.640 31	0.820 23	0.777 15	1.000 1	0.612 14
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
PBNet	0.747 20	1.000 1	0.818 26	0.837 19	0.713 8	0.844 24	0.457 16	0.647 38	0.711 14	0.614 19	0.617 26	0.657 21	0.650 23	1.000 1	0.692 23	0.822 22	0.765 20	1.000 1	0.595 20
W.Zhao, Y.Yan, C.Yang, J.Ye,X.Yang,K.Huang: Divide and Conquer: 3D Instance Segmentation With Point-Wise Binarization. ICCV 2023
GraphCut	0.732 21	1.000 1	0.788 39	0.724 36	0.642 23	0.859 23	0.248 29	0.787 11	0.618 26	0.596 22	0.653 18	0.722 11	0.583 45	1.000 1	0.766 15	0.861 7	0.825 2	1.000 1	0.504 36

IPCA-Inst	0.731 22	1.000 1	0.788 40	0.884 9	0.698 12	0.788 40	0.252 28	0.760 14	0.646 24	0.511 31	0.637 21	0.665 20	0.804 7	1.000 1	0.644 30	0.778 31	0.747 24	1.000 1	0.561 27

TopoSeg	0.725 23	1.000 1	0.806 33	0.933 2	0.668 20	0.758 44	0.272 27	0.734 19	0.630 25	0.549 27	0.654 17	0.606 25	0.697 19	0.966 40	0.612 35	0.839 15	0.754 23	1.000 1	0.573 24

DKNet	0.718 24	1.000 1	0.814 27	0.782 26	0.619 27	0.872 18	0.224 31	0.751 17	0.569 30	0.677 15	0.585 30	0.724 10	0.633 35	0.981 36	0.515 45	0.819 24	0.736 25	1.000 1	0.617 11
Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong: 3D Instances as 1D Kernels. ECCV 2022
SSEC	0.707 25	1.000 1	0.850 19	0.924 3	0.648 21	0.747 47	0.162 35	0.862 3	0.572 29	0.520 29	0.624 23	0.549 28	0.649 32	1.000 1	0.560 40	0.706 47	0.768 18	1.000 1	0.591 22

HAIS	0.699 26	1.000 1	0.849 20	0.820 20	0.675 19	0.808 34	0.279 25	0.757 16	0.465 36	0.517 30	0.596 28	0.559 27	0.600 39	1.000 1	0.654 28	0.767 33	0.676 29	0.994 46	0.560 28
Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang: Hierarchical Aggregation for 3D Instance Segmentation. ICCV 2021
SSTNet	0.698 27	1.000 1	0.697 58	0.888 8	0.556 37	0.803 35	0.387 20	0.626 42	0.417 41	0.556 26	0.585 31	0.702 12	0.600 39	1.000 1	0.824 6	0.720 45	0.692 27	1.000 1	0.509 35
Zhihao Liang, Zhihao Li, Songcen Xu, Mingkui Tan, Kui Jia: Instance Segmentation in 3D Scenes using Semantic Superpoint Tree Networks. ICCV2021
DualGroup	0.694 28	1.000 1	0.799 36	0.811 21	0.622 25	0.817 29	0.376 21	0.805 9	0.590 28	0.487 35	0.568 34	0.525 32	0.650 23	0.835 53	0.600 36	0.829 19	0.655 32	1.000 1	0.526 32

SphereSeg	0.680 29	1.000 1	0.856 18	0.744 33	0.618 28	0.893 12	0.151 36	0.651 37	0.713 13	0.537 28	0.579 33	0.430 42	0.651 22	1.000 1	0.389 56	0.744 40	0.697 26	0.991 48	0.601 19

DANCENET	0.680 29	1.000 1	0.807 31	0.733 34	0.600 31	0.768 43	0.375 22	0.543 50	0.538 31	0.610 20	0.599 27	0.498 33	0.632 37	0.981 36	0.739 19	0.856 8	0.633 38	0.882 61	0.454 45

Box2Mask	0.677 31	1.000 1	0.847 21	0.771 28	0.509 46	0.816 30	0.277 26	0.558 49	0.482 33	0.562 25	0.640 20	0.448 38	0.700 15	1.000 1	0.666 24	0.852 12	0.578 45	0.997 37	0.488 40
Julian Chibane, Francis Engelmann, Tuan Anh Tran, Gerard Pons-Moll: Box2Mask: Weakly Supervised 3D Semantic Instance Segmentation Using Bounding Boxes. ECCV 2022
OccuSeg+instance	0.672 32	1.000 1	0.758 50	0.682 41	0.576 35	0.842 25	0.477 14	0.504 56	0.524 32	0.567 24	0.585 32	0.451 37	0.557 47	1.000 1	0.751 18	0.797 28	0.563 48	1.000 1	0.467 44
Lei Han, Tian Zheng, Lan Xu, Lu Fang: OccuSeg: Occupancy-aware 3D Instance Segmentation. CVPR2020
Mask-Group	0.664 33	1.000 1	0.822 25	0.764 31	0.616 29	0.815 31	0.139 40	0.694 27	0.597 27	0.459 39	0.566 35	0.599 26	0.600 39	0.516 63	0.715 21	0.819 25	0.635 36	1.000 1	0.603 17
Min Zhong, Xinghao Chen, Xiaokang Chen, Gang Zeng, Yunhe Wang: MaskGroup: Hierarchical Point Grouping and Masking for 3D Instance Segmentation. ICME 2022
INS-Conv-instance	0.657 34	1.000 1	0.760 48	0.667 43	0.581 33	0.863 20	0.323 23	0.655 36	0.477 34	0.473 37	0.549 37	0.432 41	0.650 23	1.000 1	0.655 27	0.738 41	0.585 44	0.944 53	0.472 43

CSC-Pretrained	0.648 35	1.000 1	0.810 28	0.768 29	0.523 44	0.813 32	0.143 39	0.819 5	0.389 44	0.422 48	0.511 41	0.443 39	0.650 23	1.000 1	0.624 33	0.732 42	0.634 37	1.000 1	0.375 52

PE	0.645 36	1.000 1	0.773 44	0.798 25	0.538 39	0.786 41	0.088 48	0.799 10	0.350 48	0.435 46	0.547 38	0.545 29	0.646 34	0.933 42	0.562 39	0.761 36	0.556 53	0.997 37	0.501 38
Biao Zhang, Peter Wonka: Point Cloud Instance Segmentation using Probabilistic Embeddings. CVPR 2021
RPGN	0.643 37	1.000 1	0.758 49	0.582 54	0.539 38	0.826 28	0.046 53	0.765 12	0.372 46	0.436 45	0.588 29	0.539 31	0.650 23	1.000 1	0.577 37	0.750 38	0.653 34	0.997 37	0.495 39
Shichao Dong, Guosheng Lin, Tzu-Yi Hung: Learning Regional Purity for Instance Segmentation on 3D Point Clouds. ECCV 2022
Dyco3D	0.641 38	1.000 1	0.841 22	0.893 7	0.531 41	0.802 36	0.115 45	0.588 47	0.448 38	0.438 43	0.537 40	0.430 43	0.550 48	0.857 45	0.534 43	0.764 35	0.657 31	0.987 49	0.568 25
Tong He; Chunhua Shen; Anton van den Hengel: DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution. CVPR2021
GICN	0.638 39	1.000 1	0.895 16	0.800 24	0.480 50	0.676 52	0.144 38	0.737 18	0.354 47	0.447 40	0.400 54	0.365 49	0.700 15	1.000 1	0.569 38	0.836 16	0.599 40	1.000 1	0.473 42

PointGroup	0.636 40	1.000 1	0.765 45	0.624 45	0.505 48	0.797 37	0.116 44	0.696 26	0.384 45	0.441 41	0.559 36	0.476 35	0.596 42	1.000 1	0.666 24	0.756 37	0.556 52	0.997 37	0.513 34
Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia: PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation. CVPR 2020 [oral]
DD-UNet+Group	0.635 41	0.667 56	0.797 38	0.714 38	0.562 36	0.774 42	0.146 37	0.810 8	0.429 40	0.476 36	0.546 39	0.399 45	0.633 35	1.000 1	0.632 32	0.722 44	0.609 39	1.000 1	0.514 33
H. Liu, R. Liu, K. Yang, J. Zhang, K. Peng, R. Stiefelhagen: HIDA: Towards Holistic Indoor Understanding for the Visually Impaired via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor. ICCVW 2021
Mask3D_evaluation	0.631 42	1.000 1	0.829 24	0.606 47	0.646 22	0.836 26	0.068 49	0.511 54	0.462 37	0.507 32	0.619 25	0.389 47	0.610 38	1.000 1	0.432 51	0.828 21	0.673 30	0.788 65	0.552 29

DENet	0.629 43	1.000 1	0.797 37	0.608 46	0.589 32	0.627 56	0.219 32	0.882 1	0.310 50	0.402 53	0.383 56	0.396 46	0.650 23	1.000 1	0.663 26	0.543 64	0.691 28	1.000 1	0.568 26

3D-MPA	0.611 44	1.000 1	0.833 23	0.765 30	0.526 43	0.756 45	0.136 42	0.588 47	0.470 35	0.438 44	0.432 50	0.358 51	0.650 23	0.857 45	0.429 52	0.765 34	0.557 51	1.000 1	0.430 47
Francis Engelmann, Martin Bokeloh, Alireza Fathi, Bastian Leibe, Matthias Nießner: 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation. CVPR 2020
OSIS	0.605 45	1.000 1	0.801 35	0.599 49	0.535 40	0.728 49	0.286 24	0.436 60	0.679 18	0.491 33	0.433 48	0.256 53	0.404 60	0.857 45	0.620 34	0.724 43	0.510 58	1.000 1	0.539 31

AOIA	0.601 46	1.000 1	0.761 47	0.687 40	0.485 49	0.828 27	0.008 60	0.663 34	0.405 43	0.405 52	0.425 51	0.490 34	0.596 42	0.714 56	0.553 42	0.779 29	0.597 41	0.992 47	0.424 49

PCJC	0.578 47	1.000 1	0.810 29	0.583 53	0.449 53	0.813 33	0.042 54	0.603 45	0.341 49	0.490 34	0.465 45	0.410 44	0.650 23	0.835 53	0.264 62	0.694 51	0.561 49	0.889 58	0.504 37

SSEN	0.575 48	1.000 1	0.761 46	0.473 56	0.477 51	0.795 38	0.066 50	0.529 52	0.658 22	0.460 38	0.461 46	0.380 48	0.331 62	0.859 44	0.401 55	0.692 53	0.653 33	1.000 1	0.348 54
Dongsu Zhang, Junha Chun, Sang Kyun Cha, Young Min Kim: Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with Deep Metric Learning. Arxiv
RWSeg	0.567 49	0.528 66	0.708 57	0.626 44	0.580 34	0.745 48	0.063 51	0.627 41	0.240 54	0.400 54	0.497 42	0.464 36	0.515 49	1.000 1	0.475 47	0.745 39	0.571 46	1.000 1	0.429 48

NeuralBF	0.555 50	0.667 56	0.896 15	0.843 17	0.517 45	0.751 46	0.029 55	0.519 53	0.414 42	0.439 42	0.465 44	0.000 72	0.484 51	0.857 45	0.287 60	0.693 52	0.651 35	1.000 1	0.485 41
Weiwei Sun, Daniel Rebain, Renjie Liao, Vladimir Tankovich, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi: NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation on Point Clouds. WACV 2023
MTML	0.549 51	1.000 1	0.807 32	0.588 52	0.327 58	0.647 54	0.004 62	0.815 7	0.180 57	0.418 49	0.364 58	0.182 56	0.445 54	1.000 1	0.442 50	0.688 54	0.571 47	1.000 1	0.396 50
Jean Lahoud, Bernard Ghanem, Marc Pollefeys, Martin R. Oswald: 3D Instance Segmentation via Multi-task Metric Learning. ICCV 2019 [oral]
ClickSeg_Instance	0.539 52	1.000 1	0.621 61	0.300 59	0.530 42	0.698 50	0.127 43	0.533 51	0.222 55	0.430 47	0.400 53	0.365 49	0.574 46	0.938 41	0.472 48	0.659 56	0.543 54	0.944 53	0.347 55

One_Thing_One_Click	0.529 53	0.667 56	0.718 53	0.777 27	0.399 54	0.683 51	0.000 65	0.669 32	0.138 60	0.391 55	0.374 57	0.539 30	0.360 61	0.641 60	0.556 41	0.774 32	0.593 42	0.997 37	0.251 60
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
Sparse R-CNN	0.515 54	1.000 1	0.538 66	0.282 60	0.468 52	0.790 39	0.173 34	0.345 62	0.429 39	0.413 51	0.484 43	0.176 57	0.595 44	0.591 61	0.522 44	0.668 55	0.476 59	0.986 51	0.327 56

Occipital-SCS	0.512 55	1.000 1	0.716 54	0.509 55	0.506 47	0.611 57	0.092 47	0.602 46	0.177 58	0.346 58	0.383 55	0.165 58	0.442 55	0.850 52	0.386 57	0.618 60	0.543 55	0.889 58	0.389 51

3D-BoNet	0.488 56	1.000 1	0.672 60	0.590 51	0.301 60	0.484 67	0.098 46	0.620 43	0.306 51	0.341 59	0.259 62	0.125 60	0.434 57	0.796 55	0.402 54	0.499 66	0.513 57	0.909 57	0.439 46
Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen Wang, Andrew Markham, Niki Trigoni: Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds. NeurIPS 2019 Spotlight
PanopticFusion-inst	0.478 57	0.667 56	0.712 56	0.595 50	0.259 63	0.550 63	0.000 65	0.613 44	0.175 59	0.250 64	0.434 47	0.437 40	0.411 59	0.857 45	0.485 46	0.591 63	0.267 69	0.944 53	0.359 53
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
SPG_WSIS	0.470 58	0.667 56	0.685 59	0.677 42	0.372 56	0.562 61	0.000 65	0.482 57	0.244 53	0.316 61	0.298 59	0.052 67	0.442 56	0.857 45	0.267 61	0.702 48	0.559 50	1.000 1	0.287 58

SALoss-ResNet	0.459 59	1.000 1	0.737 52	0.159 70	0.259 62	0.587 59	0.138 41	0.475 58	0.217 56	0.416 50	0.408 52	0.128 59	0.315 63	0.714 56	0.411 53	0.536 65	0.590 43	0.873 62	0.304 57
Zhidong Liang, Ming Yang, Hao Li, Chunxiang Wang: 3D Instance Embedding Learning With a Structure-Aware Loss Function for Point Cloud Segmentation. IEEE Robotics and Automation Letters (IROS2020)
MASC	0.447 60	0.528 66	0.555 64	0.381 57	0.382 55	0.633 55	0.002 63	0.509 55	0.260 52	0.361 57	0.432 49	0.327 52	0.451 53	0.571 62	0.367 58	0.639 58	0.386 60	0.980 52	0.276 59
Chen Liu, Yasutaka Furukawa: MASC: Multi-scale Affinity with Sparse Convolution for 3D Instance Segmentation.
SegGroup_ins	0.445 61	0.667 56	0.773 43	0.185 67	0.317 59	0.656 53	0.000 65	0.407 61	0.134 61	0.381 56	0.267 61	0.217 55	0.476 52	0.714 56	0.452 49	0.629 59	0.514 56	1.000 1	0.222 63
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
3D-SIS	0.382 62	1.000 1	0.432 69	0.245 62	0.190 64	0.577 60	0.013 59	0.263 64	0.033 67	0.320 60	0.240 63	0.075 63	0.422 58	0.857 45	0.117 67	0.699 49	0.271 68	0.883 60	0.235 62
Ji Hou, Angela Dai, Matthias Niessner: 3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. CVPR 2019
Hier3D	0.323 63	0.667 56	0.542 65	0.264 61	0.157 67	0.550 62	0.000 65	0.205 67	0.009 69	0.270 63	0.218 64	0.075 63	0.500 50	0.688 59	0.007 73	0.698 50	0.301 65	0.459 70	0.200 64
Tan: HCFS3D: Hierarchical Coupled Feature Selection Network for 3D Semantic and Instance Segmentation.
UNet-backbone	0.319 64	0.667 56	0.715 55	0.233 63	0.189 65	0.479 68	0.008 60	0.218 65	0.067 66	0.201 66	0.173 65	0.107 61	0.123 68	0.438 64	0.150 64	0.615 61	0.355 61	0.916 56	0.093 72

R-PointNet	0.306 65	0.500 68	0.405 70	0.311 58	0.348 57	0.589 58	0.054 52	0.068 70	0.126 62	0.283 62	0.290 60	0.028 68	0.219 66	0.214 67	0.331 59	0.396 70	0.275 66	0.821 64	0.245 61

Region-18class	0.284 66	0.250 72	0.751 51	0.228 65	0.270 61	0.521 64	0.000 65	0.468 59	0.008 71	0.205 65	0.127 66	0.000 72	0.068 70	0.070 71	0.262 63	0.652 57	0.323 63	0.740 66	0.173 65

SemRegionNet-20cls	0.250 67	0.333 69	0.613 62	0.229 64	0.163 66	0.493 65	0.000 65	0.304 63	0.107 63	0.147 69	0.100 68	0.052 66	0.231 64	0.119 69	0.039 69	0.445 68	0.325 62	0.654 67	0.141 68

3D-BEVIS	0.248 68	0.667 56	0.566 63	0.076 71	0.035 73	0.394 71	0.027 57	0.035 72	0.098 64	0.099 71	0.030 72	0.025 69	0.098 69	0.375 66	0.126 66	0.604 62	0.181 71	0.854 63	0.171 66
Cathrin Elich, Francis Engelmann, Jonas Schult, Theodora Kontogianni, Bastian Leibe: 3D-BEVIS: Birds-Eye-View Instance Segmentation.
tmp	0.248 68	0.667 56	0.437 68	0.188 66	0.153 68	0.491 66	0.000 65	0.208 66	0.094 65	0.153 68	0.099 69	0.057 65	0.217 67	0.119 69	0.039 69	0.466 67	0.302 64	0.640 68	0.140 69

Sem_Recon_ins	0.227 70	0.764 55	0.486 67	0.069 72	0.098 70	0.426 70	0.017 58	0.067 71	0.015 68	0.172 67	0.100 67	0.096 62	0.054 72	0.183 68	0.135 65	0.366 71	0.260 70	0.614 69	0.168 67

ASIS	0.199 71	0.333 69	0.253 72	0.167 69	0.140 69	0.438 69	0.000 65	0.177 68	0.008 70	0.121 70	0.069 70	0.004 71	0.231 65	0.429 65	0.036 71	0.445 69	0.273 67	0.333 72	0.119 71

Sgpn_scannet	0.143 72	0.208 73	0.390 71	0.169 68	0.065 71	0.275 72	0.029 56	0.069 69	0.000 72	0.087 72	0.043 71	0.014 70	0.027 73	0.000 72	0.112 68	0.351 72	0.168 72	0.438 71	0.138 70

MaskRCNN 2d->3d Proj	0.058 73	0.333 69	0.002 73	0.000 73	0.053 72	0.002 73	0.002 64	0.021 73	0.000 72	0.045 73	0.024 73	0.238 54	0.065 71	0.000 72	0.014 72	0.107 73	0.020 73	0.110 73	0.006 73

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

Virtual MVFusion (R)	0.745 1	0.861 1	0.839 1	0.881 1	0.672 2	0.512 1	0.422 17	0.898 1	0.723 1	0.714 1	0.954 2	0.454 1	0.509 1	0.773 1	0.895 1	0.756 1	0.820 1	0.653 1	0.935 1	0.891 1	0.728 1
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
BPNet_2D	0.670 2	0.822 3	0.795 3	0.836 2	0.659 3	0.481 2	0.451 13	0.769 4	0.656 3	0.567 4	0.931 3	0.395 6	0.390 5	0.700 4	0.534 4	0.689 10	0.770 2	0.574 3	0.865 9	0.831 3	0.675 5
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia and Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MVF-GNN（2D）	0.636 3	0.606 14	0.794 4	0.434 16	0.688 1	0.337 8	0.464 12	0.798 3	0.632 5	0.589 3	0.908 8	0.420 2	0.329 12	0.743 2	0.594 2	0.738 2	0.676 5	0.527 4	0.906 2	0.818 6	0.715 3

CU-Hybrid-2D Net	0.636 3	0.825 2	0.820 2	0.179 23	0.648 4	0.463 3	0.549 2	0.742 7	0.676 2	0.628 2	0.961 1	0.420 2	0.379 6	0.684 8	0.381 18	0.732 3	0.723 3	0.599 2	0.827 16	0.851 2	0.634 7

CMX	0.613 5	0.681 8	0.725 12	0.502 12	0.634 6	0.297 18	0.478 10	0.830 2	0.651 4	0.537 7	0.924 4	0.375 7	0.315 14	0.686 7	0.451 14	0.714 5	0.543 21	0.504 6	0.894 7	0.823 5	0.688 4

DMMF_3d	0.605 6	0.651 9	0.744 10	0.782 3	0.637 5	0.387 4	0.536 3	0.732 8	0.590 7	0.540 6	0.856 21	0.359 11	0.306 15	0.596 14	0.539 3	0.627 20	0.706 4	0.497 8	0.785 21	0.757 19	0.476 22

EMSANet	0.600 7	0.716 4	0.746 9	0.395 18	0.614 9	0.382 5	0.523 4	0.713 11	0.571 11	0.503 10	0.922 6	0.404 5	0.397 4	0.655 9	0.400 16	0.626 21	0.663 6	0.469 13	0.900 4	0.827 4	0.577 14
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
MCA-Net	0.595 8	0.533 20	0.756 8	0.746 4	0.590 10	0.334 10	0.506 7	0.670 15	0.587 8	0.500 12	0.905 10	0.366 10	0.352 9	0.601 13	0.506 8	0.669 16	0.648 9	0.501 7	0.839 15	0.769 15	0.516 21

RFBNet	0.592 9	0.616 11	0.758 7	0.659 5	0.581 11	0.330 11	0.469 11	0.655 18	0.543 14	0.524 8	0.924 4	0.355 13	0.336 11	0.572 17	0.479 10	0.671 14	0.648 9	0.480 10	0.814 19	0.814 7	0.614 10

FAN_NV_RVC	0.586 10	0.510 21	0.764 6	0.079 26	0.620 8	0.330 11	0.494 8	0.753 5	0.573 9	0.556 5	0.884 16	0.405 4	0.303 16	0.718 3	0.452 13	0.672 13	0.658 7	0.509 5	0.898 5	0.813 8	0.727 2

DCRedNet	0.583 11	0.682 7	0.723 13	0.542 11	0.510 20	0.310 15	0.451 13	0.668 16	0.549 13	0.520 9	0.920 7	0.375 7	0.446 2	0.528 20	0.417 15	0.670 15	0.577 18	0.478 11	0.862 10	0.806 9	0.628 9

MIX6D_RVC	0.582 12	0.695 5	0.687 17	0.225 21	0.632 7	0.328 13	0.550 1	0.748 6	0.623 6	0.494 15	0.890 14	0.350 15	0.254 23	0.688 6	0.454 12	0.716 4	0.597 17	0.489 9	0.881 8	0.768 16	0.575 15

SSMA	0.577 13	0.695 5	0.716 15	0.439 14	0.563 14	0.314 14	0.444 15	0.719 9	0.551 12	0.503 10	0.887 15	0.346 16	0.348 10	0.603 12	0.353 20	0.709 6	0.600 15	0.457 14	0.901 3	0.786 11	0.599 13
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
DMMF	0.567 14	0.623 10	0.767 5	0.238 20	0.571 13	0.347 6	0.413 19	0.719 9	0.472 20	0.418 22	0.895 13	0.357 12	0.260 22	0.696 5	0.523 7	0.666 17	0.642 11	0.437 18	0.895 6	0.793 10	0.603 12

UNIV_CNP_RVC_UE	0.566 15	0.569 19	0.686 19	0.435 15	0.524 17	0.294 19	0.421 18	0.712 12	0.543 14	0.463 17	0.872 17	0.320 17	0.363 8	0.611 11	0.477 11	0.686 11	0.627 12	0.443 17	0.862 10	0.775 14	0.639 6

EMSAFormer	0.564 16	0.581 16	0.736 11	0.564 10	0.546 16	0.219 23	0.517 5	0.675 14	0.486 19	0.427 21	0.904 11	0.352 14	0.320 13	0.589 15	0.528 5	0.708 7	0.464 24	0.413 22	0.847 14	0.786 11	0.611 11

SN_RN152pyrx8_RVC	0.546 17	0.572 17	0.663 21	0.638 7	0.518 18	0.298 17	0.366 24	0.633 21	0.510 17	0.446 19	0.864 19	0.296 20	0.267 19	0.542 19	0.346 21	0.704 8	0.575 19	0.431 19	0.853 13	0.766 17	0.630 8

UDSSEG_RVC	0.545 18	0.610 13	0.661 22	0.588 8	0.556 15	0.268 21	0.482 9	0.642 20	0.572 10	0.475 16	0.836 23	0.312 18	0.367 7	0.630 10	0.189 23	0.639 19	0.495 23	0.452 15	0.826 17	0.756 20	0.541 17

segfomer with 6d	0.542 19	0.594 15	0.687 17	0.146 24	0.579 12	0.308 16	0.515 6	0.703 13	0.472 20	0.498 13	0.868 18	0.369 9	0.282 17	0.589 15	0.390 17	0.701 9	0.556 20	0.416 21	0.860 12	0.759 18	0.539 19

FuseNet	0.535 20	0.570 18	0.681 20	0.182 22	0.512 19	0.290 20	0.431 16	0.659 17	0.504 18	0.495 14	0.903 12	0.308 19	0.428 3	0.523 21	0.365 19	0.676 12	0.621 14	0.470 12	0.762 22	0.779 13	0.541 17
Caner Hazirbas, Lingni Ma, Csaba Domokos, Daniel Cremers: FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. ACCV 2016
AdapNet++	0.503 21	0.613 12	0.722 14	0.418 17	0.358 26	0.337 8	0.370 23	0.479 24	0.443 22	0.368 24	0.907 9	0.207 23	0.213 25	0.464 24	0.525 6	0.618 22	0.657 8	0.450 16	0.788 20	0.721 23	0.408 25
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
3DMV (2d proj)	0.498 22	0.481 24	0.612 23	0.579 9	0.456 22	0.343 7	0.384 21	0.623 22	0.525 16	0.381 23	0.845 22	0.254 22	0.264 21	0.557 18	0.182 24	0.581 24	0.598 16	0.429 20	0.760 23	0.661 25	0.446 24
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
MSeg1080_RVC	0.485 23	0.505 22	0.709 16	0.092 25	0.427 23	0.241 22	0.411 20	0.654 19	0.385 26	0.457 18	0.861 20	0.053 26	0.279 18	0.503 22	0.481 9	0.645 18	0.626 13	0.365 24	0.748 24	0.725 22	0.529 20
John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun: MSeg: A Composite Dataset for Multi-domain Semantic Segmentation. CVPR 2020
ILC-PSPNet	0.475 24	0.490 23	0.581 24	0.289 19	0.507 21	0.067 26	0.379 22	0.610 23	0.417 24	0.435 20	0.822 25	0.278 21	0.267 19	0.503 22	0.228 22	0.616 23	0.533 22	0.375 23	0.820 18	0.729 21	0.560 16

Enet (reimpl)	0.376 25	0.264 26	0.452 26	0.452 13	0.365 24	0.181 24	0.143 26	0.456 25	0.409 25	0.346 25	0.769 26	0.164 24	0.218 24	0.359 25	0.123 26	0.403 26	0.381 26	0.313 26	0.571 25	0.685 24	0.472 23
Re-implementation of Adam Paszke, Abhishek Chaurasia, Sangpil Kim, Eugenio Culurciello: ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation.
ScanNet (2d proj)	0.330 26	0.293 25	0.521 25	0.657 6	0.361 25	0.161 25	0.250 25	0.004 26	0.440 23	0.183 26	0.836 23	0.125 25	0.060 26	0.319 26	0.132 25	0.417 25	0.412 25	0.344 25	0.541 26	0.427 26	0.109 26
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

EMSANet (Instance)	0.241 1	0.401 1	0.439 1	0.085 1	0.242 1	0.220 1	0.081 1	0.289 2	0.117 2	0.121 1	0.182 1	0.126 1	0.346 1	0.181 2	0.181 2	0.358 1	0.156 1	0.675 2	0.131 1
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
UniDet_RVC	0.205 2	0.381 2	0.323 3	0.037 3	0.226 3	0.177 3	0.063 2	0.277 3	0.120 1	0.067 3	0.131 3	0.074 3	0.317 2	0.080 3	0.235 1	0.289 3	0.141 3	0.678 1	0.080 3

FKNet	0.204 3	0.334 3	0.358 2	0.038 2	0.234 2	0.184 2	0.025 3	0.318 1	0.042 4	0.088 2	0.141 2	0.053 4	0.300 3	0.207 1	0.171 3	0.292 2	0.149 2	0.636 3	0.109 2

MaskRCNN_ScanNet	0.119 4	0.129 4	0.212 4	0.002 4	0.112 4	0.148 4	0.014 4	0.205 4	0.044 3	0.066 4	0.078 4	0.095 2	0.142 4	0.030 4	0.128 4	0.139 4	0.080 4	0.459 4	0.057 4
Re-implementation of Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick: Mask R-CNN. ICCV'17

Presenting the ScanNet200 Benchmark

ScanNet200 Benchmark

ScanNet200 3D Semantic Label Benchmark

ScanNet200 3D Semantic Instance Benchmark

ScanNet Benchmark

3D Semantic Label Benchmark

3D Semantic Instance Benchmark

2D Semantic Label Benchmark

2D Semantic Instance Benchmark

Scene Type Classification Benchmark

Method	avg iou	apartment	bathroom	bedroom / hotel	bookstore / library	conference room	copy/mail room	hallway	kitchen	laundry room	living room / lounge	misc	office	storage / basement / garage

LAST-PCL-type	0.738 1	0.250 3	1.000 1	0.895 1	1.000 1	1.000 1	1.000 1	0.500 1	1.000 1	0.500 2	0.842 1	0.000 2	0.941 1	0.667 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang: Language-Assisted 3D Scene Understanding. arxiv23.12
multi-task	0.646 2	0.500 1	1.000 1	0.789 2	0.333 3	0.667 3	1.000 1	0.500 1	1.000 1	1.000 1	0.778 2	0.000 2	0.833 2	0.000 3
Shengyu Huang, Mikhail Usvyatsov, Konrad Schindler: Indoor Scene Recognition in 3D. IROS 2020
3DASPP-SCE	0.556 3	0.500 1	0.938 3	0.778 3	0.667 2	1.000 1	0.250 3	0.500 1	0.750 3	0.333 3	0.500 4	0.000 2	0.812 3	0.200 2

SE-ResNeXt-SSMA	0.355 4	0.000 5	0.684 4	0.696 4	0.200 5	0.500 4	0.200 4	0.500 1	0.429 4	0.200 4	0.545 3	0.111 1	0.556 4	0.000 3
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. arXiv
resnet50_scannet	0.231 5	0.200 4	0.481 5	0.346 5	0.250 4	0.250 5	0.000 5	0.500 1	0.333 5	0.000 5	0.357 5	0.000 2	0.286 5	0.000 3