Benchmark Results - ScanNet Benchmark

This table lists the benchmark results for the ScanNet200 3D semantic label scenario.

Method	avg iou	head iou	common iou	tail iou	wall	chair	floor	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

PTv3 ScanNet200	0.393 3	0.592 3	0.330 2	0.216 2	0.851 2	0.687 7	0.971 2	0.586 2	0.755 1	0.752 8	0.505 1	0.404 6	0.575 4	0.000 11	0.848 2	0.616 4	0.761 3	0.349 1	0.738 2	0.978 2	0.546 6	0.860 8	0.926 2	0.346 3	0.654 4	0.384 6	0.828 1	0.523 3	0.699 3	0.583 6	0.387 7	0.822 4	0.688 2	0.118 5	0.474 2	0.603 5	0.000 1	0.832 5	0.903 2	0.753 9	0.140 8	0.000 7	0.650 3	0.109 4	0.520 3	0.457 1	0.497 9	0.871 4	0.281 4	0.192 4	0.887 4	0.748 3	0.168 1	0.727 6	0.733 2	0.740 1	0.644 1	0.714 5	0.190 10	0.000 3	0.256 4	0.449 7	0.914 1	0.514 3	0.759 13	0.337 2	0.172 4	0.692 6	0.617 2	0.636 1	0.325 6	0.000 1	0.641 2	0.782 1	0.000 4	0.065 4	0.000 1	0.000 6	0.842 4	0.903 2	0.661 4	0.662 4	0.612 1	0.405 2	0.731 1	0.566 3	0.000 3	0.000 7	0.000 1	0.017 13	0.301 1	0.088 6	0.941 2	0.000 1	0.077 3	0.000 10	0.717 6	0.790 2	0.310 11	0.026 15	0.264 4	0.349 1	0.220 3	0.397 11	0.366 2	0.115 10	0.000 5	0.337 2	0.463 6	0.000 1	0.531 3	0.218 3	0.593 2	0.455 2	0.469 1	0.708 3	0.210 3	0.592 3	0.108 14	0.000 1	0.728 1	0.682 3	0.671 7	0.000 1	0.000 8	0.407 1	0.136 3	0.022 3	0.575 1	0.436 5	0.259 3	0.428 1	0.048 5	0.000 1	0.000 2	0.879 5	0.000 1	0.480 3	0.000 1	0.133 8	0.597 1	0.000 1	0.690 2	0.000 1	0.000 1	0.009 13	0.000 13	0.921 4	0.000 8	0.151 4	0.000 1	0.000 6	0.000 1	0.109 7	0.494 11	0.622 2	0.394 8	0.073 10	0.141 8	0.798 1	0.528 6	0.026 4	0.000 1	0.551 4	0.000 2	0.000 2	0.134 6	0.717 7	0.000 2	0.000 1	0.000 1	0.188 3	0.000 7	0.000 3	0.791 2	0.000 1
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
BFANet ScanNet200	0.360 4	0.553 6	0.293 4	0.193 4	0.827 4	0.689 5	0.970 3	0.528 10	0.661 7	0.753 7	0.436 7	0.378 7	0.469 13	0.042 5	0.810 3	0.654 1	0.760 4	0.266 8	0.659 10	0.973 3	0.574 4	0.849 12	0.897 4	0.382 2	0.546 11	0.372 8	0.698 11	0.491 6	0.617 8	0.526 8	0.436 1	0.764 12	0.476 15	0.101 6	0.409 4	0.585 8	0.000 1	0.835 3	0.901 3	0.810 5	0.102 11	0.000 7	0.688 2	0.096 5	0.483 9	0.264 10	0.612 8	0.591 14	0.358 2	0.161 6	0.863 5	0.707 4	0.128 2	0.814 3	0.669 5	0.629 9	0.563 4	0.651 12	0.258 4	0.000 3	0.194 8	0.494 6	0.806 11	0.394 6	0.953 4	0.000 4	0.233 1	0.757 4	0.508 6	0.556 3	0.476 3	0.000 1	0.573 5	0.741 4	0.000 4	0.000 8	0.000 1	0.000 6	0.000 15	0.852 6	0.678 3	0.616 5	0.460 4	0.338 3	0.710 2	0.534 4	0.000 3	0.025 4	0.000 1	0.043 2	0.000 4	0.056 11	0.493 15	0.000 1	0.000 9	0.109 4	0.785 5	0.590 5	0.298 12	0.282 4	0.143 11	0.262 4	0.053 10	0.526 4	0.337 5	0.215 1	0.000 5	0.135 7	0.510 4	0.000 1	0.596 2	0.043 11	0.511 4	0.321 12	0.459 2	0.772 2	0.124 11	0.060 12	0.266 6	0.000 1	0.574 8	0.568 7	0.653 9	0.000 1	0.093 1	0.298 2	0.239 2	0.000 6	0.516 2	0.129 12	0.284 2	0.000 6	0.431 1	0.000 1	0.000 2	0.848 7	0.000 1	0.492 2	0.000 1	0.376 2	0.522 5	0.000 1	0.469 15	0.000 1	0.000 1	0.330 6	0.151 6	0.875 13	0.000 8	0.254 3	0.000 1	0.000 6	0.000 1	0.088 12	0.661 1	0.481 4	0.255 11	0.105 1	0.139 10	0.666 4	0.641 4	0.000 11	0.000 1	0.614 2	0.000 2	0.000 2	0.000 10	0.921 1	0.000 2	0.000 1	0.000 1	0.497 1	0.000 7	0.000 3	0.000 9	0.000 1

CeCo	0.340 6	0.551 8	0.247 11	0.181 5	0.784 11	0.661 12	0.939 11	0.564 5	0.624 11	0.721 10	0.484 4	0.429 4	0.575 4	0.027 6	0.774 10	0.503 12	0.753 5	0.242 11	0.656 11	0.945 7	0.534 8	0.865 6	0.860 9	0.177 15	0.616 7	0.400 4	0.818 2	0.579 1	0.615 9	0.367 12	0.408 6	0.726 13	0.633 5	0.162 1	0.360 7	0.619 2	0.000 1	0.828 6	0.873 10	0.924 2	0.109 10	0.083 3	0.564 5	0.057 15	0.475 11	0.266 9	0.781 1	0.767 7	0.257 7	0.100 11	0.825 8	0.663 10	0.048 13	0.620 12	0.551 9	0.595 13	0.532 7	0.692 8	0.246 5	0.000 3	0.213 6	0.615 1	0.861 6	0.376 7	0.900 5	0.000 4	0.102 13	0.660 7	0.321 13	0.547 4	0.226 11	0.000 1	0.311 11	0.742 3	0.011 3	0.006 7	0.000 1	0.000 6	0.546 13	0.824 9	0.345 12	0.665 3	0.450 5	0.435 1	0.683 5	0.411 8	0.338 1	0.000 7	0.000 1	0.030 6	0.000 4	0.068 8	0.892 7	0.000 1	0.063 4	0.000 10	0.257 11	0.304 12	0.387 5	0.079 11	0.228 6	0.190 10	0.000 13	0.586 1	0.347 4	0.133 7	0.000 5	0.037 11	0.377 10	0.000 1	0.384 6	0.006 14	0.003 11	0.421 3	0.410 10	0.643 6	0.171 6	0.121 7	0.142 12	0.000 1	0.510 11	0.447 9	0.474 12	0.000 1	0.000 8	0.286 3	0.083 11	0.000 6	0.000 9	0.603 1	0.096 6	0.063 5	0.000 10	0.000 1	0.000 2	0.898 3	0.000 1	0.429 7	0.000 1	0.400 1	0.550 3	0.000 1	0.633 6	0.000 1	0.000 1	0.377 4	0.000 13	0.916 5	0.000 8	0.000 8	0.000 1	0.000 6	0.000 1	0.102 11	0.499 9	0.296 12	0.463 5	0.089 5	0.304 1	0.740 2	0.401 14	0.010 6	0.000 1	0.560 3	0.000 2	0.000 2	0.709 2	0.652 9	0.000 2	0.000 1	0.000 1	0.143 8	0.000 7	0.000 3	0.609 3	0.000 1
Zhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia: Understanding Imbalanced Semantic Segmentation Through Neural Collapse. CVPR 2023
ALS-MinkowskiNet	0.414 1	0.610 2	0.322 3	0.271 1	0.852 1	0.710 2	0.973 1	0.572 3	0.719 3	0.795 1	0.477 5	0.506 2	0.601 1	0.000 11	0.804 5	0.646 2	0.804 1	0.344 2	0.777 1	0.984 1	0.671 1	0.879 2	0.936 1	0.342 4	0.632 6	0.449 3	0.817 3	0.475 7	0.723 2	0.798 1	0.376 8	0.832 3	0.693 1	0.031 10	0.564 1	0.510 12	0.000 1	0.893 2	0.905 1	0.672 15	0.314 2	0.000 7	0.718 1	0.153 2	0.542 2	0.397 2	0.726 3	0.752 8	0.252 8	0.226 1	0.916 2	0.800 1	0.047 14	0.807 4	0.769 1	0.709 3	0.630 2	0.769 1	0.217 9	0.000 3	0.285 2	0.598 3	0.846 9	0.535 2	0.956 3	0.000 4	0.137 9	0.784 2	0.464 7	0.463 12	0.230 10	0.000 1	0.598 3	0.662 8	0.000 4	0.087 2	0.000 1	0.135 2	0.900 1	0.780 12	0.703 2	0.741 1	0.571 2	0.149 9	0.697 3	0.646 1	0.000 3	0.076 1	0.000 1	0.025 7	0.000 4	0.106 4	0.981 1	0.000 1	0.043 6	0.113 3	0.888 1	0.248 14	0.404 4	0.252 5	0.314 1	0.220 5	0.245 1	0.466 7	0.366 2	0.159 2	0.000 5	0.149 6	0.690 2	0.000 1	0.531 3	0.253 2	0.285 6	0.460 1	0.440 4	0.813 1	0.230 2	0.283 6	0.159 11	0.000 1	0.728 1	0.666 5	0.958 1	0.000 1	0.021 4	0.252 4	0.118 4	0.000 6	0.445 3	0.223 11	0.285 1	0.194 3	0.390 2	0.000 1	0.475 1	0.842 8	0.000 1	0.455 4	0.000 1	0.250 5	0.458 7	0.000 1	0.865 1	0.000 1	0.000 1	0.635 1	0.359 2	0.972 1	0.087 3	0.447 2	0.000 1	0.000 6	0.000 1	0.129 2	0.532 6	0.446 7	0.503 3	0.071 11	0.135 13	0.699 3	0.717 2	0.097 2	0.000 1	0.665 1	0.000 2	0.000 2	1.000 1	0.752 5	0.000 2	0.000 1	0.000 1	0.142 9	0.200 1	0.259 1	1.000 1	0.000 1

AWCS	0.305 12	0.508 12	0.225 12	0.142 9	0.782 12	0.634 15	0.937 12	0.489 13	0.578 12	0.721 10	0.364 13	0.355 10	0.515 9	0.023 7	0.764 12	0.523 11	0.707 12	0.264 9	0.633 12	0.922 11	0.507 13	0.886 1	0.804 13	0.179 13	0.436 14	0.300 12	0.656 14	0.529 2	0.501 13	0.394 11	0.296 14	0.820 5	0.603 9	0.131 4	0.179 15	0.619 2	0.000 1	0.707 14	0.865 12	0.773 6	0.171 6	0.010 6	0.484 12	0.063 13	0.463 12	0.254 11	0.332 14	0.649 11	0.220 11	0.100 11	0.729 12	0.613 13	0.071 11	0.582 13	0.628 7	0.702 4	0.424 13	0.749 2	0.137 13	0.000 3	0.142 12	0.360 10	0.863 5	0.305 12	0.877 8	0.000 4	0.173 3	0.606 12	0.337 12	0.478 10	0.154 13	0.000 1	0.253 12	0.664 7	0.000 4	0.000 8	0.000 1	0.000 6	0.626 11	0.782 11	0.302 14	0.602 6	0.185 12	0.282 6	0.651 10	0.317 11	0.000 3	0.000 7	0.000 1	0.022 9	0.000 4	0.154 1	0.876 8	0.000 1	0.014 8	0.063 9	0.029 15	0.553 6	0.467 3	0.084 10	0.124 12	0.157 14	0.049 11	0.373 12	0.252 10	0.097 12	0.000 5	0.219 5	0.542 3	0.000 1	0.392 5	0.172 7	0.000 13	0.339 9	0.417 8	0.533 12	0.093 13	0.115 8	0.195 9	0.000 1	0.516 10	0.288 14	0.741 4	0.000 1	0.001 7	0.233 5	0.056 12	0.000 6	0.159 5	0.334 8	0.077 8	0.000 6	0.000 10	0.000 1	0.000 2	0.749 11	0.000 1	0.411 8	0.000 1	0.008 10	0.452 9	0.000 1	0.595 9	0.000 1	0.000 1	0.220 9	0.006 9	0.894 10	0.006 6	0.000 8	0.000 1	0.000 6	0.000 1	0.112 5	0.504 8	0.404 9	0.551 1	0.093 4	0.129 15	0.484 8	0.381 15	0.000 11	0.000 1	0.396 13	0.000 2	0.000 2	0.620 3	0.402 15	0.000 2	0.000 1	0.000 1	0.142 9	0.000 7	0.000 3	0.512 5	0.000 1

GSTran	0.339 7	0.536 10	0.273 6	0.169 7	0.811 7	0.690 4	0.949 5	0.506 11	0.690 4	0.765 2	0.397 11	0.235 14	0.480 12	0.014 8	0.788 8	0.593 7	0.746 7	0.282 5	0.696 5	0.913 12	0.538 7	0.853 11	0.889 6	0.286 10	0.670 3	0.310 11	0.682 12	0.445 9	0.638 5	0.598 4	0.358 9	0.841 2	0.643 4	0.061 8	0.373 6	0.614 4	0.000 1	0.786 10	0.876 7	0.754 8	0.357 1	0.000 7	0.535 8	0.071 11	0.491 8	0.369 4	0.487 10	0.698 10	0.317 3	0.202 3	0.659 15	0.666 8	0.086 7	0.832 1	0.461 14	0.597 12	0.455 11	0.731 3	0.156 12	0.000 3	0.316 1	0.318 12	0.784 12	0.348 10	0.896 6	0.000 4	0.084 14	0.648 8	0.514 5	0.470 11	0.368 5	0.000 1	0.441 8	0.705 6	0.000 4	0.079 3	0.000 1	0.021 3	0.872 2	0.872 3	0.621 9	0.589 8	0.144 14	0.129 11	0.648 11	0.459 6	0.000 3	0.000 7	0.000 1	0.022 9	0.289 2	0.096 5	0.667 13	0.000 1	0.000 9	0.000 10	0.834 4	0.682 4	0.178 15	0.033 14	0.256 5	0.196 7	0.000 13	0.473 6	0.279 8	0.079 14	0.008 4	0.495 1	0.425 7	0.000 1	0.228 11	0.009 13	0.564 3	0.410 4	0.366 12	0.665 5	0.161 9	0.615 2	0.365 3	0.000 1	0.609 6	0.386 10	0.681 6	0.000 1	0.000 8	0.199 6	0.093 10	0.497 1	0.109 7	0.252 10	0.161 4	0.118 4	0.000 10	0.000 1	0.000 2	0.857 6	0.000 1	0.495 1	0.000 1	0.162 7	0.412 11	0.000 1	0.563 11	0.000 1	0.000 1	0.000 15	0.012 7	0.877 12	0.004 7	0.000 8	0.000 1	0.002 5	0.000 1	0.109 7	0.458 12	0.358 11	0.246 13	0.060 12	0.139 10	0.466 9	0.803 1	0.097 2	0.000 1	0.517 7	0.000 2	0.000 2	0.060 9	0.413 13	0.000 2	0.000 1	0.000 1	0.183 4	0.024 5	0.000 3	0.297 7	0.000 1

PonderV2 ScanNet200	0.346 5	0.552 7	0.270 8	0.175 6	0.810 8	0.682 8	0.950 4	0.560 6	0.641 10	0.761 4	0.398 10	0.357 9	0.570 7	0.113 2	0.804 5	0.603 6	0.750 6	0.283 4	0.681 7	0.952 5	0.548 5	0.874 4	0.852 11	0.290 9	0.700 2	0.356 10	0.792 4	0.445 9	0.545 11	0.436 10	0.351 11	0.787 8	0.611 8	0.050 9	0.290 12	0.519 11	0.000 1	0.825 7	0.888 4	0.842 3	0.259 4	0.100 2	0.558 6	0.070 12	0.497 7	0.247 12	0.457 11	0.889 3	0.248 9	0.106 10	0.817 10	0.691 6	0.094 6	0.729 5	0.636 6	0.620 11	0.503 10	0.660 11	0.243 6	0.000 3	0.212 7	0.590 4	0.860 7	0.400 5	0.881 7	0.000 4	0.202 2	0.622 10	0.408 9	0.499 8	0.261 9	0.000 1	0.385 9	0.636 9	0.000 4	0.000 8	0.000 1	0.000 6	0.433 14	0.843 7	0.660 6	0.574 12	0.481 3	0.336 4	0.677 6	0.486 5	0.000 3	0.030 3	0.000 1	0.034 5	0.000 4	0.080 7	0.869 9	0.000 1	0.000 9	0.000 10	0.540 8	0.727 3	0.232 14	0.115 8	0.186 8	0.193 8	0.000 13	0.403 10	0.326 6	0.103 11	0.000 5	0.290 4	0.392 9	0.000 1	0.346 7	0.062 9	0.424 5	0.375 7	0.431 5	0.667 4	0.115 12	0.082 10	0.239 7	0.000 1	0.504 12	0.606 6	0.584 10	0.000 1	0.002 6	0.186 7	0.104 9	0.000 6	0.394 4	0.384 7	0.083 7	0.000 6	0.007 8	0.000 1	0.000 2	0.880 4	0.000 1	0.377 10	0.000 1	0.263 3	0.565 2	0.000 1	0.608 8	0.000 1	0.000 1	0.304 7	0.009 8	0.924 3	0.000 8	0.000 8	0.000 1	0.000 6	0.000 1	0.128 3	0.584 3	0.475 6	0.412 7	0.076 9	0.269 3	0.621 5	0.509 7	0.010 6	0.000 1	0.491 9	0.063 1	0.000 2	0.472 4	0.880 2	0.000 2	0.000 1	0.000 1	0.179 5	0.125 2	0.000 3	0.441 6	0.000 1
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
L3DETR-ScanNet_200	0.336 8	0.533 11	0.279 5	0.155 8	0.801 10	0.689 5	0.946 7	0.539 8	0.660 8	0.759 5	0.380 12	0.333 11	0.583 3	0.000 11	0.788 8	0.529 10	0.740 8	0.261 10	0.679 9	0.940 10	0.525 11	0.860 8	0.883 7	0.226 11	0.613 8	0.397 5	0.720 10	0.512 4	0.565 10	0.620 3	0.417 5	0.775 11	0.629 6	0.158 2	0.298 10	0.579 9	0.000 1	0.835 3	0.883 5	0.927 1	0.114 9	0.079 4	0.511 10	0.073 10	0.508 5	0.312 6	0.629 5	0.861 5	0.192 14	0.098 13	0.908 3	0.636 11	0.032 15	0.563 15	0.514 12	0.664 5	0.505 9	0.697 7	0.225 8	0.000 3	0.264 3	0.411 9	0.860 7	0.321 11	0.960 2	0.058 3	0.109 11	0.776 3	0.526 4	0.557 2	0.303 8	0.000 1	0.339 10	0.712 5	0.000 4	0.014 6	0.000 1	0.000 6	0.638 10	0.856 5	0.641 7	0.579 11	0.107 15	0.119 12	0.661 8	0.416 7	0.000 3	0.000 7	0.000 1	0.007 15	0.000 4	0.067 9	0.910 5	0.000 1	0.000 9	0.000 10	0.463 9	0.448 7	0.294 13	0.324 2	0.293 2	0.211 6	0.108 7	0.448 9	0.068 15	0.141 6	0.000 5	0.330 3	0.699 1	0.000 1	0.256 8	0.192 5	0.000 13	0.355 8	0.418 7	0.209 15	0.146 10	0.679 1	0.101 15	0.000 1	0.503 13	0.687 2	0.671 7	0.000 1	0.000 8	0.174 8	0.117 5	0.000 6	0.122 6	0.515 2	0.104 5	0.259 2	0.312 3	0.000 1	0.000 2	0.765 10	0.000 1	0.369 12	0.000 1	0.183 6	0.422 10	0.000 1	0.646 3	0.000 1	0.000 1	0.565 2	0.001 12	0.125 15	0.010 5	0.002 7	0.000 1	0.487 1	0.000 1	0.075 13	0.548 4	0.420 8	0.233 14	0.082 7	0.138 12	0.430 11	0.427 11	0.000 11	0.000 1	0.549 5	0.000 2	0.000 2	0.074 8	0.409 14	0.000 2	0.000 1	0.000 1	0.152 7	0.051 3	0.000 3	0.598 4	0.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, Jian Zhang: Language-Assisted 3D Scene Understanding. arXiv23.12
DITR	0.409 2	0.616 1	0.351 1	0.215 3	0.831 3	0.791 1	0.947 6	0.619 1	0.730 2	0.762 3	0.494 2	0.571 1	0.597 2	0.000 11	0.853 1	0.625 3	0.796 2	0.301 3	0.723 3	0.959 4	0.617 2	0.862 7	0.917 3	0.573 1	0.562 9	0.591 1	0.784 7	0.504 5	0.757 1	0.737 2	0.429 4	0.853 1	0.662 3	0.135 3	0.459 3	0.558 10	0.000 1	0.913 1	0.878 6	0.687 14	0.008 14	0.000 7	0.615 4	0.238 1	0.651 1	0.370 3	0.742 2	0.925 2	0.360 1	0.167 5	0.938 1	0.752 2	0.118 3	0.827 2	0.670 4	0.723 2	0.614 3	0.628 13	0.372 1	0.000 3	0.143 11	0.175 15	0.873 3	0.652 1	0.991 1	0.340 1	0.148 6	0.814 1	0.656 1	0.524 6	0.491 2	0.000 1	0.743 1	0.752 2	0.000 4	0.000 8	0.000 1	0.399 1	0.865 3	0.953 1	0.833 1	0.694 2	0.444 6	0.000 15	0.688 4	0.609 2	0.000 3	0.053 2	0.000 1	0.022 9	0.000 4	0.053 12	0.940 3	0.000 1	0.186 1	0.093 5	0.854 2	0.877 1	0.534 2	0.404 1	0.270 3	0.191 9	0.198 4	0.461 8	0.375 1	0.152 3	0.921 1	0.132 8	0.235 13	0.000 1	0.617 1	0.330 1	0.896 1	0.399 6	0.431 5	0.597 9	0.759 1	0.554 4	0.400 2	0.000 1	0.559 9	0.699 1	0.852 2	0.000 1	0.000 8	0.091 9	0.385 1	0.000 6	0.000 9	0.478 4	0.077 8	0.000 6	0.140 4	0.000 1	0.000 2	0.670 12	0.000 1	0.452 5	0.000 1	0.263 3	0.361 12	0.000 1	0.643 4	0.000 1	0.000 1	0.357 5	0.005 10	0.928 2	0.362 1	0.496 1	0.000 1	0.000 6	0.000 1	0.072 15	0.585 2	0.587 3	0.476 4	0.037 14	0.191 5	0.410 13	0.629 5	0.118 1	0.000 1	0.479 10	0.000 2	0.000 2	0.107 7	0.839 3	0.000 2	0.000 1	0.000 1	0.139 11	0.036 4	0.000 3	0.247 8	0.000 1

OA-CNN-L_ScanNet200	0.333 9	0.558 4	0.269 9	0.124 11	0.821 5	0.703 3	0.946 7	0.569 4	0.662 5	0.748 9	0.487 3	0.455 3	0.572 6	0.000 11	0.789 7	0.534 9	0.736 9	0.271 6	0.713 4	0.949 6	0.498 14	0.877 3	0.860 9	0.332 6	0.706 1	0.474 2	0.788 6	0.406 11	0.637 6	0.495 9	0.355 10	0.805 6	0.592 12	0.015 14	0.396 5	0.602 6	0.000 1	0.799 8	0.876 7	0.713 13	0.276 3	0.000 7	0.493 11	0.080 8	0.448 13	0.363 5	0.661 4	0.833 6	0.262 6	0.125 7	0.823 9	0.665 9	0.076 9	0.720 7	0.557 8	0.637 8	0.517 8	0.672 10	0.227 7	0.000 3	0.158 10	0.496 5	0.843 10	0.352 9	0.835 11	0.000 4	0.103 12	0.711 5	0.527 3	0.526 5	0.320 7	0.000 1	0.568 6	0.625 10	0.067 1	0.000 8	0.000 1	0.001 5	0.806 6	0.836 8	0.621 9	0.591 7	0.373 8	0.314 5	0.668 7	0.398 9	0.003 2	0.000 7	0.000 1	0.016 14	0.024 3	0.043 13	0.906 6	0.000 1	0.052 5	0.000 10	0.384 10	0.330 11	0.342 7	0.100 9	0.223 7	0.183 11	0.112 6	0.476 5	0.313 7	0.130 9	0.196 3	0.112 10	0.370 11	0.000 1	0.234 9	0.071 8	0.160 7	0.403 5	0.398 11	0.492 13	0.197 4	0.076 11	0.272 5	0.000 1	0.200 15	0.560 8	0.735 5	0.000 1	0.000 8	0.000 10	0.110 7	0.002 5	0.021 8	0.412 6	0.000 10	0.000 6	0.000 10	0.000 1	0.000 2	0.794 9	0.000 1	0.445 6	0.000 1	0.022 9	0.509 6	0.000 1	0.517 13	0.000 1	0.000 1	0.001 14	0.245 3	0.915 6	0.024 4	0.089 5	0.000 1	0.262 2	0.000 1	0.103 10	0.524 7	0.392 10	0.515 2	0.013 15	0.251 4	0.411 12	0.662 3	0.001 10	0.000 1	0.473 11	0.000 2	0.000 2	0.150 5	0.699 8	0.000 2	0.000 1	0.000 1	0.166 6	0.000 7	0.024 2	0.000 9	0.000 1

PPT-SpUNet-F.T.	0.332 10	0.556 5	0.270 7	0.123 12	0.816 6	0.682 8	0.946 7	0.549 7	0.657 9	0.756 6	0.459 6	0.376 8	0.550 8	0.001 10	0.807 4	0.616 4	0.727 10	0.267 7	0.691 6	0.942 9	0.530 10	0.872 5	0.874 8	0.330 7	0.542 12	0.374 7	0.792 4	0.400 12	0.673 4	0.572 7	0.433 2	0.793 7	0.623 7	0.008 15	0.351 8	0.594 7	0.000 1	0.783 11	0.876 7	0.833 4	0.213 5	0.000 7	0.537 7	0.091 6	0.519 4	0.304 7	0.620 7	0.942 1	0.264 5	0.124 8	0.855 6	0.695 5	0.086 7	0.646 9	0.506 13	0.658 6	0.535 6	0.715 4	0.314 2	0.000 3	0.241 5	0.608 2	0.897 2	0.359 8	0.858 9	0.000 4	0.076 15	0.611 11	0.392 10	0.509 7	0.378 4	0.000 1	0.579 4	0.565 14	0.000 4	0.000 8	0.000 1	0.000 6	0.755 7	0.806 10	0.661 4	0.572 13	0.350 9	0.181 7	0.660 9	0.300 12	0.000 3	0.000 7	0.000 1	0.023 8	0.000 4	0.042 14	0.930 4	0.000 1	0.000 9	0.077 7	0.584 7	0.392 9	0.339 8	0.185 7	0.171 10	0.308 2	0.006 12	0.563 3	0.256 9	0.150 4	0.000 5	0.002 14	0.345 12	0.000 1	0.045 12	0.197 4	0.063 9	0.323 11	0.453 3	0.600 8	0.163 8	0.037 13	0.349 4	0.000 1	0.672 3	0.679 4	0.753 3	0.000 1	0.000 8	0.000 10	0.117 5	0.000 6	0.000 9	0.291 9	0.000 10	0.000 6	0.039 6	0.000 1	0.000 2	0.899 2	0.000 1	0.374 11	0.000 1	0.000 11	0.545 4	0.000 1	0.634 5	0.000 1	0.000 1	0.074 10	0.223 4	0.914 7	0.000 8	0.021 6	0.000 1	0.000 6	0.000 1	0.112 5	0.498 10	0.649 1	0.383 9	0.095 2	0.135 13	0.449 10	0.432 10	0.008 8	0.000 1	0.518 6	0.000 2	0.000 2	0.000 10	0.796 4	0.000 2	0.000 1	0.000 1	0.138 12	0.000 7	0.000 3	0.000 9	0.000 1
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer ScanNet200	0.326 11	0.539 9	0.265 10	0.131 10	0.806 9	0.670 11	0.943 10	0.535 9	0.662 5	0.705 14	0.423 8	0.407 5	0.505 10	0.003 9	0.765 11	0.582 8	0.686 13	0.227 14	0.680 8	0.943 8	0.601 3	0.854 10	0.892 5	0.335 5	0.417 15	0.357 9	0.724 9	0.453 8	0.632 7	0.596 5	0.432 3	0.783 9	0.512 14	0.021 13	0.244 13	0.637 1	0.000 1	0.787 9	0.873 10	0.743 11	0.000 15	0.000 7	0.534 9	0.110 3	0.499 6	0.289 8	0.626 6	0.620 12	0.168 15	0.204 2	0.849 7	0.679 7	0.117 4	0.633 10	0.684 3	0.650 7	0.552 5	0.684 9	0.312 3	0.000 3	0.175 9	0.429 8	0.865 4	0.413 4	0.837 10	0.000 4	0.145 7	0.626 9	0.451 8	0.487 9	0.513 1	0.000 1	0.529 7	0.613 11	0.000 4	0.033 5	0.000 1	0.000 6	0.828 5	0.871 4	0.622 8	0.587 9	0.411 7	0.137 10	0.645 12	0.343 10	0.000 3	0.000 7	0.000 1	0.022 9	0.000 4	0.026 15	0.829 10	0.000 1	0.022 7	0.089 6	0.842 3	0.253 13	0.318 10	0.296 3	0.178 9	0.291 3	0.224 2	0.584 2	0.200 12	0.132 8	0.000 5	0.128 9	0.227 14	0.000 1	0.230 10	0.047 10	0.149 8	0.331 10	0.412 9	0.618 7	0.164 7	0.102 9	0.522 1	0.000 1	0.655 4	0.378 11	0.469 13	0.000 1	0.000 8	0.000 10	0.105 8	0.000 6	0.000 9	0.483 3	0.000 10	0.000 6	0.028 7	0.000 1	0.000 2	0.906 1	0.000 1	0.339 13	0.000 1	0.000 11	0.457 8	0.000 1	0.612 7	0.000 1	0.000 1	0.408 3	0.000 13	0.900 8	0.000 8	0.000 8	0.000 1	0.029 4	0.000 1	0.074 14	0.455 13	0.479 5	0.427 6	0.079 8	0.140 9	0.496 7	0.414 12	0.022 5	0.000 1	0.471 12	0.000 2	0.000 2	0.000 10	0.722 6	0.000 2	0.000 1	0.000 1	0.138 12	0.000 7	0.000 3	0.000 9	0.000 1
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
LGround	0.272 13	0.485 13	0.184 13	0.106 13	0.778 13	0.676 10	0.932 13	0.479 15	0.572 13	0.718 12	0.399 9	0.265 12	0.453 14	0.085 3	0.745 13	0.446 13	0.726 11	0.232 13	0.622 13	0.901 13	0.512 12	0.826 13	0.786 14	0.178 14	0.549 10	0.277 13	0.659 13	0.381 13	0.518 12	0.295 15	0.323 12	0.777 10	0.599 10	0.028 11	0.321 9	0.363 14	0.000 1	0.708 13	0.858 13	0.746 10	0.063 12	0.022 5	0.457 13	0.077 9	0.476 10	0.243 13	0.402 12	0.397 15	0.233 10	0.077 15	0.720 14	0.610 14	0.103 5	0.629 11	0.437 15	0.626 10	0.446 12	0.702 6	0.190 10	0.005 1	0.058 14	0.322 11	0.702 14	0.244 13	0.768 12	0.000 4	0.134 10	0.552 13	0.279 14	0.395 13	0.147 14	0.000 1	0.207 13	0.612 12	0.000 4	0.000 8	0.000 1	0.000 6	0.658 9	0.566 13	0.323 13	0.525 15	0.229 11	0.179 8	0.467 15	0.154 14	0.000 3	0.002 5	0.000 1	0.051 1	0.000 4	0.127 2	0.703 11	0.000 1	0.000 9	0.216 1	0.112 14	0.358 10	0.547 1	0.187 6	0.092 14	0.156 15	0.055 9	0.296 13	0.252 10	0.143 5	0.000 5	0.014 12	0.398 8	0.000 1	0.028 14	0.173 6	0.000 13	0.265 14	0.348 13	0.415 14	0.179 5	0.019 14	0.218 8	0.000 1	0.597 7	0.274 15	0.565 11	0.000 1	0.012 5	0.000 10	0.039 14	0.022 3	0.000 9	0.117 13	0.000 10	0.000 6	0.000 10	0.000 1	0.000 2	0.324 14	0.000 1	0.384 9	0.000 1	0.000 11	0.251 15	0.000 1	0.566 10	0.000 1	0.000 1	0.066 11	0.404 1	0.886 11	0.199 2	0.000 8	0.000 1	0.059 3	0.000 1	0.136 1	0.540 5	0.127 15	0.295 10	0.085 6	0.143 7	0.514 6	0.413 13	0.000 11	0.000 1	0.498 8	0.000 2	0.000 2	0.000 10	0.623 10	0.000 2	0.000 1	0.000 1	0.132 14	0.000 7	0.000 3	0.000 9	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild. arXiv
CSC-Pretrain	0.249 15	0.455 15	0.171 14	0.079 15	0.766 15	0.659 13	0.930 15	0.494 12	0.542 15	0.700 15	0.314 15	0.215 15	0.430 15	0.121 1	0.697 15	0.441 14	0.683 14	0.235 12	0.609 15	0.895 14	0.476 15	0.816 14	0.770 15	0.186 12	0.634 5	0.216 15	0.734 8	0.340 14	0.471 14	0.307 14	0.293 15	0.591 15	0.542 13	0.076 7	0.205 14	0.464 13	0.000 1	0.484 15	0.832 15	0.766 7	0.052 13	0.000 7	0.413 14	0.059 14	0.418 14	0.222 14	0.318 15	0.609 13	0.206 13	0.112 9	0.743 11	0.625 12	0.076 9	0.579 14	0.548 10	0.590 14	0.371 14	0.552 15	0.081 14	0.003 2	0.142 12	0.201 14	0.638 15	0.233 14	0.686 15	0.000 4	0.142 8	0.444 15	0.375 11	0.247 15	0.198 12	0.000 1	0.128 15	0.454 15	0.019 2	0.097 1	0.000 1	0.000 6	0.553 12	0.557 14	0.373 11	0.545 14	0.164 13	0.014 14	0.547 14	0.174 13	0.000 3	0.002 5	0.000 1	0.037 3	0.000 4	0.063 10	0.664 14	0.000 1	0.000 9	0.130 2	0.170 12	0.152 15	0.335 9	0.079 11	0.110 13	0.175 12	0.098 8	0.175 15	0.166 13	0.045 15	0.207 2	0.014 12	0.465 5	0.000 1	0.001 15	0.001 15	0.046 10	0.299 13	0.327 14	0.537 11	0.033 14	0.012 15	0.186 10	0.000 1	0.205 14	0.377 12	0.463 14	0.000 1	0.058 3	0.000 10	0.055 13	0.041 2	0.000 9	0.105 14	0.000 10	0.000 6	0.000 10	0.000 1	0.000 2	0.398 13	0.000 1	0.308 15	0.000 1	0.000 11	0.319 13	0.000 1	0.543 12	0.000 1	0.000 1	0.062 12	0.004 11	0.862 14	0.000 8	0.000 8	0.000 1	0.000 6	0.000 1	0.123 4	0.316 14	0.225 13	0.250 12	0.094 3	0.180 6	0.332 14	0.441 9	0.000 11	0.000 1	0.310 15	0.000 2	0.000 2	0.000 10	0.592 11	0.000 2	0.000 1	0.000 1	0.203 2	0.000 7	0.000 3	0.000 9	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
Minkowski 34D	0.253 14	0.463 14	0.154 15	0.102 14	0.771 14	0.650 14	0.932 13	0.483 14	0.571 14	0.710 13	0.331 14	0.250 13	0.492 11	0.044 4	0.703 14	0.419 15	0.606 15	0.227 14	0.621 14	0.865 15	0.531 9	0.771 15	0.813 12	0.291 8	0.484 13	0.242 14	0.612 15	0.282 15	0.440 15	0.351 13	0.299 13	0.622 14	0.593 11	0.027 12	0.293 11	0.310 15	0.000 1	0.757 12	0.858 13	0.737 12	0.150 7	0.164 1	0.368 15	0.084 7	0.381 15	0.142 15	0.357 13	0.720 9	0.214 12	0.092 14	0.724 13	0.596 15	0.056 12	0.655 8	0.525 11	0.581 15	0.352 15	0.594 14	0.056 15	0.000 3	0.014 15	0.224 13	0.772 13	0.205 15	0.720 14	0.000 4	0.159 5	0.531 14	0.163 15	0.294 14	0.136 15	0.000 1	0.169 14	0.589 13	0.000 4	0.000 8	0.000 1	0.002 4	0.663 8	0.466 15	0.265 15	0.582 10	0.337 10	0.016 13	0.559 13	0.084 15	0.000 3	0.000 7	0.000 1	0.036 4	0.000 4	0.125 3	0.670 12	0.000 1	0.102 2	0.071 8	0.164 13	0.406 8	0.386 6	0.046 13	0.068 15	0.159 13	0.117 5	0.284 14	0.111 14	0.094 13	0.000 5	0.000 15	0.197 15	0.000 1	0.044 13	0.013 12	0.002 12	0.228 15	0.307 15	0.588 10	0.025 15	0.545 5	0.134 13	0.000 1	0.655 4	0.302 13	0.282 15	0.000 1	0.060 2	0.000 10	0.035 15	0.000 6	0.000 9	0.097 15	0.000 10	0.000 6	0.005 9	0.000 1	0.000 2	0.096 15	0.000 1	0.334 14	0.000 1	0.000 11	0.274 14	0.000 1	0.513 14	0.000 1	0.000 1	0.280 8	0.194 5	0.897 9	0.000 8	0.000 8	0.000 1	0.000 6	0.000 1	0.108 9	0.279 15	0.189 14	0.141 15	0.059 13	0.272 2	0.307 15	0.445 8	0.003 9	0.000 1	0.353 14	0.000 2	0.026 1	0.000 10	0.581 12	0.001 1	0.000 1	0.000 1	0.093 15	0.002 6	0.000 3	0.000 9	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019

This table lists the benchmark results for the ScanNet200 3D semantic instance scenario.

Method	avg ap 25%	head ap 25%	common ap 25%	tail ap 25%	chair	table	door	couch	cabinet	shelf	desk	office chair	bed	pillow	sink	picture	window	toilet	bookshelf	monitor	curtain	book	coffee table	box	refrigerator	lamp	kitchen cabinet	towel	clothes	tv	nightstand	counter	dresser	stool	cushion	plant	ceiling	bathtub	end table	dining table	keyboard	bag	backpack	toilet paper	printer	tv stand	whiteboard	blanket	shower curtain	trash can	closet	stairs	microwave	stove	shoe	computer tower	bottle	bin	bench	board	washing machine	mirror	copier	basket	sofa chair	file cabinet	fan	laptop	shower	paper	person	paper towel dispenser	oven	blinds	rack	plate	blackboard	piano	suitcase	radiator	recycling bin	wardrobe	soap dispenser	telephone	bucket	clock	stand	light	laundry basket	pipe	clothes dryer	seat	speaker	column	bicycle	ladder	bathroom stall	shower wall	cup	jacket	storage bin	coffee maker	dishwasher	paper towel roll	machine	mat	windowsill	bar	toaster	bulletin board	ironing board	kitchen counter	doorframe	toilet paper dispenser	mini fridge	fire extinguisher	ball	hat	shower curtain rod	water cooler	paper cutter	tray	ledge	mouse	cart	storage container	scale	tissue box	light switch	power outlet	decoration	sign	projector	vacuum cleaner	candle	plunger	stuffed animal	headphones	dish rack	broom	range hood	water bottle	vent	shower floor	water pitcher	mailbox	bowl	paper bag	music stand	projector screen	laundry detergent	object	bathroom vanity	laundry hamper	bathroom stall door	ceiling light	trash bin	dumbbell	stair rail	tube	bathroom cabinet	closet rod	coffee kettle	structure	shower head	keyboard piano	case of water bottles	coat rack	storage organizer	folded chair	fire alarm	power strip	calendar	poster

Mask3D Scannet200	0.445 1	0.653 1	0.392 1	0.254 1	0.844 2	0.746 2	0.818 1	0.888 4	0.556 1	0.262 1	0.890 1	0.025 2	1.000 1	0.608 1	0.930 1	0.694 3	0.721 1	0.930 5	0.686 3	0.966 1	0.615 4	0.440 1	0.725 4	0.201 1	0.890 3	0.414 4	0.827 1	0.552 1	0.158 5	0.806 1	0.924 1	0.042 3	0.512 2	0.412 5	0.226 1	0.604 3	0.830 1	1.000 1	0.125 1	0.792 1	0.815 1	0.097 1	0.648 1	0.551 2	0.354 4	1.000 1	0.630 1	0.241 2	1.000 1	0.853 1	0.204 1	0.974 4	0.841 1	0.778 1	0.358 2	0.927 1	0.300 1	0.045 1	0.640 1	0.363 1	0.745 2	0.710 1	1.000 1	0.000 1	0.330 2	0.943 1	0.315 2	0.600 1	1.000 1	0.027 1	0.080 5	0.556 5	0.500 1	0.409 1	0.000 1	0.194 1	1.000 1	0.500 1	0.493 2	0.761 2	0.053 4	0.042 3	0.780 2	0.454 1	0.009 1	0.333 1	0.050 1	0.321 1	0.000 1	0.084 1	0.552 2	0.008 2	0.027 2	0.750 1	0.500 1	0.442 3	0.657 1	0.765 2	0.120 2	0.183 3	0.021 2	1.000 1	0.510 2	0.016 1	0.000 1	0.400 1	0.619 1	0.000 1	0.396 1	0.290 1	0.000 1	0.741 1	0.699 1	1.000 1	0.260 1	0.017 3	0.125 5	0.000 1	0.792 4	0.399 4	1.000 1	0.000 1	0.049 3	0.265 1	0.063 3	0.000 3	1.000 1	0.335 2	0.381 1	0.500 1	0.250 1	0.004 2	0.000 1	0.727 2	0.000 1	0.538 3	0.000 1	0.188 1	0.677 2	0.000 1	0.930 1	0.000 1	0.000 1	0.966 1	0.391 1	0.908 2	0.000 1	0.028 1	0.000 1	1.000 1	0.000 1	0.152 1	0.451 2	0.458 1	0.971 1	0.573 1	0.606 1	0.167 5	0.625 1	0.004 1	0.000 1	0.058 5	0.000 1	0.000 1	1.000 1	1.000 1	0.000 1	0.056 1	0.000 2	0.200 3	0.309 1	0.000 2	1.000 1	0.000 1
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
TD3D Scannet200	0.379 2	0.603 2	0.306 2	0.190 2	0.885 1	0.755 1	0.800 2	0.958 1	0.390 2	0.260 2	0.866 2	0.232 1	0.979 2	0.523 3	0.869 3	0.559 5	0.689 2	1.000 1	0.795 1	0.905 2	0.748 1	0.173 5	0.825 1	0.173 2	0.970 1	0.457 1	0.615 2	0.456 2	0.200 1	0.621 4	0.906 2	0.553 1	0.517 1	0.510 1	0.220 2	0.715 1	0.706 2	1.000 1	0.113 2	0.792 1	0.717 2	0.073 2	0.635 2	0.557 1	0.638 1	1.000 1	0.205 5	0.146 3	1.000 1	0.769 5	0.186 2	1.000 1	0.710 5	0.778 1	0.415 1	0.834 4	0.226 2	0.021 2	0.590 2	0.356 2	0.817 1	0.477 5	1.000 1	0.000 1	0.635 1	0.843 2	0.427 1	0.270 4	0.125 2	0.000 2	0.102 3	1.000 1	0.125 2	0.000 2	0.000 1	0.000 2	0.000 3	0.125 4	0.370 3	0.622 5	0.221 1	0.196 2	0.836 1	0.288 2	0.000 2	0.093 2	0.020 2	0.294 2	0.000 1	0.075 2	0.667 1	0.038 1	0.111 1	0.250 4	0.000 4	0.526 2	0.495 3	0.908 1	0.111 3	0.259 1	0.003 3	0.667 2	0.045 5	0.000 2	0.000 1	0.400 1	0.274 3	0.000 1	0.274 2	0.226 2	0.000 1	0.520 2	0.302 5	0.731 2	0.103 3	0.458 1	0.500 1	0.000 1	1.000 1	0.472 1	0.792 3	0.000 1	0.088 2	0.061 2	0.250 1	0.009 2	0.250 2	0.333 3	0.181 2	0.396 2	0.051 2	0.012 1	0.000 1	0.458 4	0.000 1	0.424 5	0.000 1	0.101 2	0.390 5	0.000 1	0.833 2	0.000 1	0.000 1	0.857 2	0.222 3	1.000 1	0.000 1	0.003 2	0.000 1	0.000 2	0.000 1	0.102 2	0.275 5	0.400 2	0.735 2	0.061 3	0.433 3	0.533 3	0.625 1	0.000 2	0.000 1	0.259 4	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	1.000 1	0.600 1	0.000 2	0.250 1	0.000 2	0.000 1
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
Minkowski 34D Inst.	0.280 4	0.488 4	0.192 5	0.124 4	0.804 4	0.518 4	0.772 5	0.904 3	0.337 5	0.191 4	0.443 4	0.000 3	0.861 4	0.502 4	0.868 4	0.669 4	0.587 4	0.997 3	0.467 5	0.828 5	0.732 2	0.342 3	0.745 3	0.119 5	0.918 2	0.404 5	0.419 4	0.398 3	0.172 3	0.618 5	0.743 4	0.167 2	0.077 5	0.500 2	0.000 3	0.568 4	0.506 5	1.000 1	0.044 4	0.000 3	0.502 4	0.010 4	0.593 4	0.284 5	0.305 5	0.903 5	0.213 4	0.142 4	0.981 3	0.790 4	0.000 4	1.000 1	0.715 4	0.538 5	0.346 4	0.830 5	0.067 3	0.000 3	0.400 3	0.074 4	0.333 4	0.551 2	1.000 1	0.000 1	0.292 3	0.777 4	0.118 5	0.317 3	0.100 4	0.000 2	0.191 2	0.648 3	0.000 3	0.000 2	0.000 1	0.000 2	0.000 3	0.500 1	0.213 5	0.825 1	0.021 5	0.333 1	0.648 5	0.098 4	0.000 2	0.000 3	0.000 3	0.077 3	0.000 1	0.000 5	0.150 5	0.000 3	0.000 3	0.000 5	0.225 2	0.281 4	0.447 4	0.000 5	0.090 4	0.148 4	0.000 4	0.479 5	0.542 1	0.000 2	0.000 1	0.200 3	0.131 5	0.000 1	0.250 3	0.000 4	0.000 1	0.159 5	0.396 4	0.677 3	0.021 4	0.000 4	0.500 1	0.000 1	1.000 1	0.442 3	0.125 5	0.000 1	0.000 4	0.000 3	0.000 4	0.333 1	0.000 3	0.528 1	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.200 5	0.000 1	0.516 4	0.000 1	0.000 3	0.500 3	0.000 1	0.833 2	0.000 1	0.000 1	0.286 4	0.083 4	0.750 3	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.059 5	0.445 3	0.200 3	0.535 4	0.070 2	0.167 4	0.385 4	0.375 3	0.000 2	0.000 1	0.333 3	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	0.000 2	0.200 3	0.000 2	0.000 2	0.000 2	0.000 1
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
CSC-Pretrain Inst.	0.275 5	0.466 5	0.218 4	0.110 5	0.783 5	0.383 5	0.783 4	0.829 5	0.367 4	0.168 5	0.305 5	0.000 3	0.661 5	0.413 5	0.869 2	0.719 1	0.546 5	0.997 3	0.685 4	0.841 4	0.555 5	0.277 4	0.768 2	0.132 3	0.779 5	0.448 3	0.364 5	0.212 5	0.161 4	0.768 2	0.692 5	0.000 4	0.395 3	0.500 2	0.000 3	0.450 5	0.591 3	1.000 1	0.020 5	0.000 3	0.423 5	0.007 5	0.625 3	0.420 3	0.505 3	1.000 1	0.353 2	0.119 5	0.571 4	0.819 2	0.014 3	1.000 1	0.774 2	0.689 4	0.311 5	0.866 2	0.067 3	0.000 3	0.400 3	0.000 5	0.278 5	0.501 3	1.000 1	0.000 1	0.162 5	0.584 5	0.286 3	0.206 5	0.125 2	0.000 2	0.084 4	0.649 2	0.000 3	0.000 2	0.000 1	0.000 2	0.000 3	0.125 4	0.312 4	0.727 3	0.221 2	0.000 4	0.667 4	0.114 3	0.000 2	0.000 3	0.000 3	0.065 5	0.000 1	0.004 4	0.278 3	0.000 3	0.000 3	0.500 2	0.000 4	0.571 1	0.000 5	0.250 4	0.019 5	0.145 5	0.000 4	0.667 2	0.200 4	0.000 2	0.000 1	0.200 3	0.258 4	0.000 1	0.000 4	0.000 4	0.000 1	0.369 4	0.429 3	0.613 4	0.000 5	0.000 4	0.500 1	0.000 1	0.500 5	0.333 5	0.500 4	0.000 1	0.106 1	0.000 3	0.000 4	0.000 3	0.000 3	0.333 3	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.918 1	0.000 1	0.638 1	0.000 1	0.000 3	0.750 1	0.000 1	0.833 2	0.000 1	0.000 1	0.143 5	0.000 5	0.750 3	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.063 4	0.377 4	0.200 3	0.222 5	0.055 4	0.500 2	0.677 2	0.250 4	0.000 2	0.000 1	0.500 2	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	0.000 2	0.115 5	0.000 2	0.000 2	0.000 2	0.000 1
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
LGround Inst.	0.314 3	0.529 3	0.225 3	0.155 3	0.810 3	0.625 3	0.798 3	0.940 2	0.372 3	0.217 3	0.484 3	0.000 3	0.927 3	0.528 2	0.826 5	0.694 2	0.605 3	1.000 1	0.731 2	0.846 3	0.716 3	0.350 2	0.589 5	0.123 4	0.857 4	0.457 2	0.578 3	0.376 4	0.183 2	0.765 3	0.800 3	0.000 4	0.278 4	0.500 2	0.000 3	0.659 2	0.569 4	1.000 1	0.093 3	0.000 3	0.539 3	0.010 3	0.578 5	0.378 4	0.571 2	1.000 1	0.337 3	0.252 1	0.530 5	0.814 3	0.000 4	0.744 5	0.743 3	0.746 3	0.346 3	0.863 3	0.067 3	0.000 3	0.400 3	0.167 3	0.667 3	0.488 4	1.000 1	0.000 1	0.208 4	0.783 3	0.166 4	0.375 2	0.071 5	0.000 2	0.200 1	0.607 4	0.000 3	0.000 2	0.000 1	0.000 2	1.000 1	0.500 1	0.517 1	0.716 4	0.221 2	0.000 4	0.706 3	0.085 5	0.000 2	0.000 3	0.000 3	0.077 4	0.000 1	0.063 3	0.278 3	0.000 3	0.000 3	0.500 2	0.083 3	0.181 5	0.515 2	0.286 3	0.144 1	0.219 2	0.042 1	0.582 4	0.400 3	0.000 2	0.000 1	0.000 5	0.305 2	0.000 1	0.000 4	0.036 3	0.000 1	0.413 3	0.500 2	0.533 5	0.250 2	0.200 2	0.500 1	0.000 1	1.000 1	0.472 1	1.000 1	0.000 1	0.000 4	0.000 3	0.250 1	0.000 3	0.000 3	0.333 3	0.000 3	0.000 3	0.000 3	0.000 3	0.000 1	0.600 3	0.000 1	0.594 2	0.000 1	0.000 3	0.500 3	0.000 1	0.647 5	0.000 1	0.000 1	0.429 3	0.333 2	0.500 5	0.000 1	0.000 3	0.000 1	0.000 2	0.000 1	0.069 3	0.696 1	0.050 5	0.556 3	0.031 5	0.042 5	0.750 1	0.250 4	0.000 2	0.000 1	0.630 1	0.000 1	0.000 1	0.000 2	0.500 2	0.000 1	0.000 2	0.000 2	0.400 2	0.000 2	0.000 2	0.000 2	0.000 1
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild.

ScanNet Benchmark

This table lists the benchmark results for the 3D semantic label scenario.

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

PTv3-PPT-ALC	0.798 1	0.911 10	0.812 21	0.854 7	0.770 12	0.856 14	0.555 15	0.943 1	0.660 24	0.735 2	0.979 1	0.606 7	0.492 1	0.792 4	0.934 3	0.841 2	0.819 5	0.716 8	0.947 10	0.906 1	0.822 1

PTv3 ScanNet	0.794 2	0.941 3	0.813 20	0.851 9	0.782 6	0.890 3	0.597 1	0.916 5	0.696 9	0.713 5	0.979 1	0.635 2	0.384 3	0.793 3	0.907 10	0.821 5	0.790 33	0.696 13	0.967 3	0.903 2	0.805 2
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
DITR ScanNet	0.793 3	0.811 39	0.852 2	0.889 1	0.774 9	0.907 1	0.592 2	0.927 3	0.719 1	0.718 3	0.961 17	0.652 1	0.348 12	0.817 1	0.927 5	0.795 9	0.824 2	0.749 1	0.948 9	0.887 7	0.771 11

PonderV2	0.785 4	0.978 1	0.800 29	0.833 26	0.788 4	0.853 19	0.545 19	0.910 8	0.713 2	0.705 6	0.979 1	0.596 9	0.390 2	0.769 15	0.832 44	0.821 5	0.792 32	0.730 2	0.975 1	0.897 5	0.785 6
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
Mix3D	0.781 5	0.964 2	0.855 1	0.843 18	0.781 7	0.858 13	0.575 7	0.831 36	0.685 15	0.714 4	0.979 1	0.594 10	0.310 29	0.801 2	0.892 18	0.841 2	0.819 5	0.723 5	0.940 15	0.887 7	0.725 27
Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann: Mix3D: Out-of-Context Data Augmentation for 3D Scenes. 3DV 2021 (Oral)
Swin3D	0.779 6	0.861 21	0.818 15	0.836 23	0.790 3	0.875 5	0.576 6	0.905 9	0.704 6	0.739 1	0.969 11	0.611 3	0.349 11	0.756 25	0.958 1	0.702 48	0.805 16	0.708 9	0.916 35	0.898 4	0.801 3

TTT-KD	0.773 7	0.646 94	0.818 15	0.809 38	0.774 9	0.878 4	0.581 3	0.943 1	0.687 13	0.704 7	0.978 5	0.607 6	0.336 18	0.775 11	0.912 8	0.838 4	0.823 3	0.694 14	0.967 3	0.899 3	0.794 5
Lisa Weijler, Muhammad Jehanzeb Mirza, Leon Sick, Can Ekkazan, Pedro Hermosilla: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models.
ResLFE_HDS	0.772 8	0.939 4	0.824 7	0.854 7	0.771 11	0.840 33	0.564 11	0.900 11	0.686 14	0.677 14	0.961 17	0.537 34	0.348 12	0.769 15	0.903 12	0.785 13	0.815 8	0.676 25	0.939 16	0.880 13	0.772 10

PPT-SpUNet-Joint	0.766 9	0.932 5	0.794 35	0.829 28	0.751 25	0.854 17	0.540 23	0.903 10	0.630 37	0.672 17	0.963 15	0.565 24	0.357 9	0.788 5	0.900 14	0.737 28	0.802 17	0.685 19	0.950 7	0.887 7	0.780 7
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer	0.766 9	0.925 7	0.808 25	0.849 11	0.786 5	0.846 29	0.566 10	0.876 18	0.690 11	0.674 16	0.960 19	0.576 20	0.226 70	0.753 27	0.904 11	0.777 15	0.815 8	0.722 6	0.923 30	0.877 16	0.776 9
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
CU-Hybrid Net	0.764 11	0.924 8	0.819 13	0.840 20	0.757 20	0.853 19	0.580 4	0.848 29	0.709 4	0.643 27	0.958 23	0.587 15	0.295 36	0.753 27	0.884 22	0.758 22	0.815 8	0.725 4	0.927 26	0.867 25	0.743 18

OccuSeg+Semantic	0.764 11	0.758 60	0.796 33	0.839 21	0.746 28	0.907 1	0.562 12	0.850 28	0.680 17	0.672 17	0.978 5	0.610 4	0.335 20	0.777 9	0.819 48	0.847 1	0.830 1	0.691 16	0.972 2	0.885 10	0.727 25

O-CNN	0.762 13	0.924 8	0.823 8	0.844 17	0.770 12	0.852 21	0.577 5	0.847 31	0.711 3	0.640 31	0.958 23	0.592 11	0.217 76	0.762 20	0.888 19	0.758 22	0.813 12	0.726 3	0.932 24	0.868 24	0.744 17
Peng-Shuai Wang, Yang Liu, Yu-Xiao Guo, Chun-Yu Sun, Xin Tong: O-CNN: Octree-based Convolutional Neural Networks for 3D Shape Analysis. SIGGRAPH 2017
DiffSegNet	0.758 14	0.725 77	0.789 40	0.843 18	0.762 16	0.856 14	0.562 12	0.920 4	0.657 27	0.658 21	0.958 23	0.589 13	0.337 17	0.782 6	0.879 23	0.787 11	0.779 38	0.678 21	0.926 28	0.880 13	0.799 4

DTC	0.757 15	0.843 27	0.820 11	0.847 14	0.791 2	0.862 11	0.511 36	0.870 20	0.707 5	0.652 23	0.954 38	0.604 8	0.279 47	0.760 21	0.942 2	0.734 29	0.766 47	0.701 12	0.884 57	0.874 22	0.736 19

OA-CNN-L_ScanNet20	0.756 16	0.783 46	0.826 6	0.858 5	0.776 8	0.837 36	0.548 18	0.896 14	0.649 29	0.675 15	0.962 16	0.586 16	0.335 20	0.771 14	0.802 52	0.770 18	0.787 35	0.691 16	0.936 19	0.880 13	0.761 13

PNE	0.755 17	0.786 44	0.835 5	0.834 25	0.758 18	0.849 24	0.570 9	0.836 35	0.648 30	0.668 19	0.978 5	0.581 19	0.367 7	0.683 38	0.856 32	0.804 7	0.801 21	0.678 21	0.961 5	0.889 6	0.716 32
P. Hermosilla: Point Neighborhood Embeddings.
ConDaFormer	0.755 17	0.927 6	0.822 9	0.836 23	0.801 1	0.849 24	0.516 33	0.864 25	0.651 28	0.680 13	0.958 23	0.584 18	0.282 44	0.759 23	0.855 34	0.728 31	0.802 17	0.678 21	0.880 62	0.873 23	0.756 15
Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Guisong Xia, Dacheng Tao: ConDaFormer : Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding. Neurips, 2023
PointTransformerV2	0.752 19	0.742 68	0.809 24	0.872 2	0.758 18	0.860 12	0.552 16	0.891 16	0.610 44	0.687 8	0.960 19	0.559 28	0.304 32	0.766 18	0.926 6	0.767 19	0.797 25	0.644 36	0.942 13	0.876 19	0.722 29
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao: Point Transformer V2: Grouped Vector Attention and Partition-based Pooling. NeurIPS 2022
DMF-Net	0.752 19	0.906 13	0.793 37	0.802 44	0.689 43	0.825 49	0.556 14	0.867 21	0.681 16	0.602 47	0.960 19	0.555 30	0.365 8	0.779 8	0.859 29	0.747 25	0.795 29	0.717 7	0.917 34	0.856 33	0.764 12
C.Yang, Y.Yan, W.Zhao, J.Ye, X.Yang, A.Hussain, B.Dong, K.Huang: Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic Segmentation. ICONIP 2023
BPNet	0.749 21	0.909 11	0.818 15	0.811 36	0.752 23	0.839 35	0.485 50	0.842 32	0.673 19	0.644 26	0.957 28	0.528 40	0.305 31	0.773 12	0.859 29	0.788 10	0.818 7	0.693 15	0.916 35	0.856 33	0.723 28
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
PointConvFormer	0.749 21	0.793 42	0.790 38	0.807 40	0.750 27	0.856 14	0.524 29	0.881 17	0.588 56	0.642 30	0.977 9	0.591 12	0.274 50	0.781 7	0.929 4	0.804 7	0.796 26	0.642 37	0.947 10	0.885 10	0.715 33
Wenxuan Wu, Qi Shan, Li Fuxin: PointConvFormer: Revenge of the Point-based Convolution.
MSP	0.748 23	0.623 97	0.804 27	0.859 4	0.745 29	0.824 51	0.501 40	0.912 7	0.690 11	0.685 10	0.956 29	0.567 23	0.320 26	0.768 17	0.918 7	0.720 36	0.802 17	0.676 25	0.921 32	0.881 12	0.779 8

StratifiedFormer	0.747 24	0.901 14	0.803 28	0.845 16	0.757 20	0.846 29	0.512 35	0.825 39	0.696 9	0.645 25	0.956 29	0.576 20	0.262 61	0.744 32	0.861 28	0.742 26	0.770 45	0.705 10	0.899 47	0.860 30	0.734 20
Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia: Stratified Transformer for 3D Point Cloud Segmentation. CVPR 2022
VMNet	0.746 25	0.870 19	0.838 3	0.858 5	0.729 34	0.850 23	0.501 40	0.874 19	0.587 57	0.658 21	0.956 29	0.564 25	0.299 34	0.765 19	0.900 14	0.716 39	0.812 13	0.631 42	0.939 16	0.858 31	0.709 34
Zeyu HU, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai: VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation. ICCV 2021 (Oral)
Virtual MVFusion	0.746 25	0.771 54	0.819 13	0.848 13	0.702 40	0.865 10	0.397 88	0.899 12	0.699 7	0.664 20	0.948 58	0.588 14	0.330 22	0.746 31	0.851 38	0.764 20	0.796 26	0.704 11	0.935 20	0.866 26	0.728 23
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
DiffSeg3D2	0.745 27	0.725 77	0.814 19	0.837 22	0.751 25	0.831 43	0.514 34	0.896 14	0.674 18	0.684 11	0.960 19	0.564 25	0.303 33	0.773 12	0.820 47	0.713 42	0.798 24	0.690 18	0.923 30	0.875 20	0.757 14

Retro-FPN	0.744 28	0.842 28	0.800 29	0.767 58	0.740 30	0.836 38	0.541 21	0.914 6	0.672 20	0.626 35	0.958 23	0.552 31	0.272 52	0.777 9	0.886 21	0.696 49	0.801 21	0.674 28	0.941 14	0.858 31	0.717 30
Peng Xiang, Xin Wen, Yu-Shen Liu, Hui Zhang, Yi Fang, Zhizhong Han: Retrospective Feature Pyramid Network for Point Cloud Semantic Segmentation. ICCV 2023
EQ-Net	0.743 29	0.620 98	0.799 32	0.849 11	0.730 33	0.822 53	0.493 47	0.897 13	0.664 21	0.681 12	0.955 32	0.562 27	0.378 4	0.760 21	0.903 12	0.738 27	0.801 21	0.673 29	0.907 39	0.877 16	0.745 16
Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya JIa: A Unified Query-based Paradigm for Point Cloud Understanding. CVPR 2022
LRPNet	0.742 30	0.816 36	0.806 26	0.807 40	0.752 23	0.828 47	0.575 7	0.839 34	0.699 7	0.637 32	0.954 38	0.520 43	0.320 26	0.755 26	0.834 42	0.760 21	0.772 42	0.676 25	0.915 37	0.862 28	0.717 30

SAT	0.742 30	0.860 22	0.765 52	0.819 31	0.769 14	0.848 26	0.533 25	0.829 37	0.663 22	0.631 34	0.955 32	0.586 16	0.274 50	0.753 27	0.896 16	0.729 30	0.760 53	0.666 31	0.921 32	0.855 35	0.733 21

LargeKernel3D	0.739 32	0.909 11	0.820 11	0.806 42	0.740 30	0.852 21	0.545 19	0.826 38	0.594 55	0.643 27	0.955 32	0.541 33	0.263 60	0.723 36	0.858 31	0.775 17	0.767 46	0.678 21	0.933 22	0.848 40	0.694 39
Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia: LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs. CVPR 2023
MinkowskiNet	0.736 33	0.859 23	0.818 15	0.832 27	0.709 38	0.840 33	0.521 31	0.853 27	0.660 24	0.643 27	0.951 48	0.544 32	0.286 42	0.731 34	0.893 17	0.675 58	0.772 42	0.683 20	0.874 69	0.852 38	0.727 25
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
RPN	0.736 33	0.776 50	0.790 38	0.851 9	0.754 22	0.854 17	0.491 49	0.866 23	0.596 54	0.686 9	0.955 32	0.536 35	0.342 15	0.624 53	0.869 25	0.787 11	0.802 17	0.628 43	0.927 26	0.875 20	0.704 36

IPCA	0.731 35	0.890 15	0.837 4	0.864 3	0.726 35	0.873 6	0.530 28	0.824 40	0.489 90	0.647 24	0.978 5	0.609 5	0.336 18	0.624 53	0.733 61	0.758 22	0.776 40	0.570 68	0.949 8	0.877 16	0.728 23

PointTransformer++	0.725 36	0.727 76	0.811 23	0.819 31	0.765 15	0.841 32	0.502 39	0.814 45	0.621 40	0.623 37	0.955 32	0.556 29	0.284 43	0.620 55	0.866 26	0.781 14	0.757 57	0.648 34	0.932 24	0.862 28	0.709 34

SparseConvNet	0.725 36	0.647 93	0.821 10	0.846 15	0.721 36	0.869 7	0.533 25	0.754 61	0.603 50	0.614 39	0.955 32	0.572 22	0.325 24	0.710 37	0.870 24	0.724 34	0.823 3	0.628 43	0.934 21	0.865 27	0.683 42

MatchingNet	0.724 38	0.812 38	0.812 21	0.810 37	0.735 32	0.834 40	0.495 46	0.860 26	0.572 64	0.602 47	0.954 38	0.512 45	0.280 46	0.757 24	0.845 40	0.725 33	0.780 37	0.606 53	0.937 18	0.851 39	0.700 38

INS-Conv-semantic	0.717 39	0.751 63	0.759 55	0.812 35	0.704 39	0.868 8	0.537 24	0.842 32	0.609 46	0.608 43	0.953 42	0.534 37	0.293 37	0.616 56	0.864 27	0.719 38	0.793 30	0.640 38	0.933 22	0.845 44	0.663 48

PointMetaBase	0.714 40	0.835 29	0.785 41	0.821 29	0.684 45	0.846 29	0.531 27	0.865 24	0.614 41	0.596 51	0.953 42	0.500 48	0.246 66	0.674 39	0.888 19	0.692 50	0.764 49	0.624 45	0.849 84	0.844 45	0.675 44

contrastBoundary	0.705 41	0.769 57	0.775 46	0.809 38	0.687 44	0.820 56	0.439 76	0.812 46	0.661 23	0.591 53	0.945 66	0.515 44	0.171 94	0.633 50	0.856 32	0.720 36	0.796 26	0.668 30	0.889 54	0.847 41	0.689 40
Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao: Contrastive Boundary Learning for Point Cloud Segmentation. CVPR2022
ClickSeg_Semantic	0.703 42	0.774 52	0.800 29	0.793 49	0.760 17	0.847 28	0.471 54	0.802 49	0.463 97	0.634 33	0.968 13	0.491 51	0.271 54	0.726 35	0.910 9	0.706 44	0.815 8	0.551 80	0.878 63	0.833 46	0.570 80

RFCR	0.702 43	0.889 16	0.745 66	0.813 34	0.672 48	0.818 60	0.493 47	0.815 44	0.623 38	0.610 41	0.947 60	0.470 60	0.249 65	0.594 59	0.848 39	0.705 45	0.779 38	0.646 35	0.892 52	0.823 52	0.611 63
Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma: Omni-Supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning. CVPR2021
One Thing One Click	0.701 44	0.825 33	0.796 33	0.723 65	0.716 37	0.832 42	0.433 78	0.816 42	0.634 35	0.609 42	0.969 11	0.418 86	0.344 14	0.559 71	0.833 43	0.715 40	0.808 15	0.560 74	0.902 44	0.847 41	0.680 43

JSENet	0.699 45	0.881 18	0.762 53	0.821 29	0.667 49	0.800 72	0.522 30	0.792 52	0.613 42	0.607 44	0.935 86	0.492 50	0.205 81	0.576 64	0.853 36	0.691 52	0.758 55	0.652 33	0.872 72	0.828 49	0.649 52
Zeyu HU, Mingmin Zhen, Xuyang BAI, Hongbo Fu, Chiew-lan Tai: JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D Point Clouds. ECCV 2020
One-Thing-One-Click	0.693 46	0.743 67	0.794 35	0.655 88	0.684 45	0.822 53	0.497 45	0.719 71	0.622 39	0.617 38	0.977 9	0.447 73	0.339 16	0.750 30	0.664 77	0.703 47	0.790 33	0.596 58	0.946 12	0.855 35	0.647 53
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
PicassoNet-II	0.692 47	0.732 72	0.772 47	0.786 50	0.677 47	0.866 9	0.517 32	0.848 29	0.509 83	0.626 35	0.952 46	0.536 35	0.225 72	0.545 77	0.704 68	0.689 55	0.810 14	0.564 73	0.903 43	0.854 37	0.729 22
Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian: Geometric feature learning for 3D meshes.
Feature_GeometricNet	0.690 48	0.884 17	0.754 59	0.795 47	0.647 56	0.818 60	0.422 80	0.802 49	0.612 43	0.604 45	0.945 66	0.462 63	0.189 89	0.563 70	0.853 36	0.726 32	0.765 48	0.632 41	0.904 41	0.821 55	0.606 67
Kangcheng Liu, Ben M. Chen: https://arxiv.org/abs/2012.09439. arXiv Preprint
FusionNet	0.688 49	0.704 83	0.741 70	0.754 62	0.656 51	0.829 45	0.501 40	0.741 66	0.609 46	0.548 61	0.950 52	0.522 42	0.371 5	0.633 50	0.756 56	0.715 40	0.771 44	0.623 46	0.861 80	0.814 58	0.658 49
Feihu Zhang, Jin Fang, Benjamin Wah, Philip Torr: Deep FusionNet for Point Cloud Semantic Segmentation. ECCV 2020
Feature-Geometry Net	0.685 50	0.866 20	0.748 63	0.819 31	0.645 58	0.794 75	0.450 66	0.802 49	0.587 57	0.604 45	0.945 66	0.464 62	0.201 84	0.554 73	0.840 41	0.723 35	0.732 67	0.602 56	0.907 39	0.822 54	0.603 70

KP-FCNN	0.684 51	0.847 26	0.758 57	0.784 52	0.647 56	0.814 63	0.473 53	0.772 55	0.605 48	0.594 52	0.935 86	0.450 71	0.181 92	0.587 60	0.805 51	0.690 53	0.785 36	0.614 49	0.882 59	0.819 56	0.632 59
H. Thomas, C. Qi, J. Deschaud, B. Marcotegui, F. Goulette, L. Guibas.: KPConv: Flexible and Deformable Convolution for Point Clouds. ICCV 2019
VACNN++	0.684 51	0.728 75	0.757 58	0.776 55	0.690 41	0.804 70	0.464 59	0.816 42	0.577 63	0.587 54	0.945 66	0.508 47	0.276 49	0.671 40	0.710 66	0.663 63	0.750 61	0.589 63	0.881 60	0.832 48	0.653 51

DGNet	0.684 51	0.712 82	0.784 42	0.782 54	0.658 50	0.835 39	0.499 44	0.823 41	0.641 32	0.597 50	0.950 52	0.487 53	0.281 45	0.575 65	0.619 81	0.647 71	0.764 49	0.620 48	0.871 75	0.846 43	0.688 41

PointContrast_LA_SEM	0.683 54	0.757 61	0.784 42	0.786 50	0.639 60	0.824 51	0.408 83	0.775 54	0.604 49	0.541 63	0.934 90	0.532 38	0.269 56	0.552 74	0.777 54	0.645 74	0.793 30	0.640 38	0.913 38	0.824 51	0.671 45

Superpoint Network	0.683 54	0.851 25	0.728 74	0.800 46	0.653 53	0.806 68	0.468 56	0.804 47	0.572 64	0.602 47	0.946 63	0.453 70	0.239 69	0.519 82	0.822 45	0.689 55	0.762 52	0.595 60	0.895 50	0.827 50	0.630 60

VI-PointConv	0.676 56	0.770 56	0.754 59	0.783 53	0.621 64	0.814 63	0.552 16	0.758 59	0.571 66	0.557 59	0.954 38	0.529 39	0.268 58	0.530 80	0.682 72	0.675 58	0.719 70	0.603 55	0.888 55	0.833 46	0.665 47
Xingyi Li, Wenxuan Wu, Xiaoli Z. Fern, Li Fuxin: The Devils in the Point Clouds: Studying the Robustness of Point Cloud Convolutions.
ROSMRF3D	0.673 57	0.789 43	0.748 63	0.763 60	0.635 62	0.814 63	0.407 85	0.747 63	0.581 61	0.573 56	0.950 52	0.484 54	0.271 54	0.607 57	0.754 57	0.649 68	0.774 41	0.596 58	0.883 58	0.823 52	0.606 67

SALANet	0.670 58	0.816 36	0.770 50	0.768 57	0.652 54	0.807 67	0.451 63	0.747 63	0.659 26	0.545 62	0.924 96	0.473 59	0.149 104	0.571 67	0.811 50	0.635 77	0.746 62	0.623 46	0.892 52	0.794 71	0.570 80

O3DSeg	0.668 59	0.822 34	0.771 49	0.496 108	0.651 55	0.833 41	0.541 21	0.761 58	0.555 72	0.611 40	0.966 14	0.489 52	0.370 6	0.388 102	0.580 84	0.776 16	0.751 59	0.570 68	0.956 6	0.817 57	0.646 54

PointASNL	0.666 60	0.703 84	0.781 44	0.751 64	0.655 52	0.830 44	0.471 54	0.769 56	0.474 93	0.537 65	0.951 48	0.475 58	0.279 47	0.635 48	0.698 71	0.675 58	0.751 59	0.553 79	0.816 91	0.806 62	0.703 37
Xu Yan, Chaoda Zheng, Zhen Li, Sheng Wang, Shuguang Cui: PointASNL: Robust Point Clouds Processing using Nonlocal Neural Networks with Adaptive Sampling. CVPR 2020
PointConv	0.666 60	0.781 47	0.759 55	0.699 73	0.644 59	0.822 53	0.475 52	0.779 53	0.564 69	0.504 79	0.953 42	0.428 80	0.203 83	0.586 62	0.754 57	0.661 64	0.753 58	0.588 64	0.902 44	0.813 60	0.642 55
Wenxuan Wu, Zhongang Qi, Li Fuxin: PointConv: Deep Convolutional Networks on 3D Point Clouds. CVPR 2019
PPCNN++	0.663 62	0.746 65	0.708 77	0.722 66	0.638 61	0.820 56	0.451 63	0.566 99	0.599 52	0.541 63	0.950 52	0.510 46	0.313 28	0.648 45	0.819 48	0.616 82	0.682 85	0.590 62	0.869 76	0.810 61	0.656 50
Pyunghwan Ahn, Juyoung Yang, Eojindl Yi, Chanho Lee, Junmo Kim: Projection-based Point Convolution for Efficient Point Cloud Segmentation. IEEE Access
DCM-Net	0.658 63	0.778 48	0.702 80	0.806 42	0.619 65	0.813 66	0.468 56	0.693 79	0.494 86	0.524 71	0.941 78	0.449 72	0.298 35	0.510 84	0.821 46	0.675 58	0.727 69	0.568 71	0.826 89	0.803 65	0.637 57
Jonas Schult, Francis Engelmann, Theodora Kontogianni, Bastian Leibe: DualConvMesh-Net: Joint Geodesic and Euclidean Convolutions on 3D Meshes. CVPR 2020 [Oral]
MVF-GNN	0.658 63	0.558 105	0.751 61	0.655 88	0.690 41	0.722 97	0.453 62	0.867 21	0.579 62	0.576 55	0.893 108	0.523 41	0.293 37	0.733 33	0.571 86	0.692 50	0.659 92	0.606 53	0.875 66	0.804 64	0.668 46

HPGCNN	0.656 65	0.698 86	0.743 68	0.650 90	0.564 82	0.820 56	0.505 38	0.758 59	0.631 36	0.479 83	0.945 66	0.480 56	0.226 70	0.572 66	0.774 55	0.690 53	0.735 65	0.614 49	0.853 83	0.776 86	0.597 73
Jisheng Dang, Qingyong Hu, Yulan Guo, Jun Yang: HPGCNN.
SAFNet-seg	0.654 66	0.752 62	0.734 72	0.664 86	0.583 77	0.815 62	0.399 87	0.754 61	0.639 33	0.535 67	0.942 76	0.470 60	0.309 30	0.665 41	0.539 88	0.650 67	0.708 75	0.635 40	0.857 82	0.793 73	0.642 55
Linqing Zhao, Jiwen Lu, Jie Zhou: Similarity-Aware Fusion Network for 3D Semantic Segmentation. IROS 2021
RandLA-Net	0.645 67	0.778 48	0.731 73	0.699 73	0.577 78	0.829 45	0.446 68	0.736 67	0.477 92	0.523 73	0.945 66	0.454 67	0.269 56	0.484 92	0.749 60	0.618 80	0.738 63	0.599 57	0.827 88	0.792 76	0.621 62

PointConv-SFPN	0.641 68	0.776 50	0.703 79	0.721 67	0.557 85	0.826 48	0.451 63	0.672 84	0.563 70	0.483 82	0.943 75	0.425 83	0.162 99	0.644 46	0.726 62	0.659 65	0.709 74	0.572 67	0.875 66	0.786 81	0.559 86

MVPNet	0.641 68	0.831 30	0.715 75	0.671 83	0.590 73	0.781 81	0.394 89	0.679 81	0.642 31	0.553 60	0.937 83	0.462 63	0.256 62	0.649 44	0.406 102	0.626 78	0.691 82	0.666 31	0.877 64	0.792 76	0.608 66
Maximilian Jaritz, Jiayuan Gu, Hao Su: Multi-view PointNet for 3D Scene Understanding. GMDL Workshop, ICCV 2019
PointMRNet	0.640 70	0.717 81	0.701 81	0.692 76	0.576 79	0.801 71	0.467 58	0.716 72	0.563 70	0.459 89	0.953 42	0.429 79	0.169 96	0.581 63	0.854 35	0.605 83	0.710 72	0.550 81	0.894 51	0.793 73	0.575 78

FPConv	0.639 71	0.785 45	0.760 54	0.713 71	0.603 68	0.798 73	0.392 90	0.534 104	0.603 50	0.524 71	0.948 58	0.457 65	0.250 64	0.538 78	0.723 64	0.598 87	0.696 80	0.614 49	0.872 72	0.799 66	0.567 83
Yiqun Lin, Zizheng Yan, Haibin Huang, Dong Du, Ligang Liu, Shuguang Cui, Xiaoguang Han: FPConv: Learning Local Flattening for Point Convolution. CVPR 2020
PD-Net	0.638 72	0.797 41	0.769 51	0.641 96	0.590 73	0.820 56	0.461 60	0.537 103	0.637 34	0.536 66	0.947 60	0.388 93	0.206 80	0.656 42	0.668 75	0.647 71	0.732 67	0.585 65	0.868 77	0.793 73	0.473 106

PointSPNet	0.637 73	0.734 71	0.692 88	0.714 70	0.576 79	0.797 74	0.446 68	0.743 65	0.598 53	0.437 94	0.942 76	0.403 89	0.150 103	0.626 52	0.800 53	0.649 68	0.697 79	0.557 77	0.846 85	0.777 85	0.563 84

SConv	0.636 74	0.830 31	0.697 84	0.752 63	0.572 81	0.780 83	0.445 70	0.716 72	0.529 76	0.530 68	0.951 48	0.446 74	0.170 95	0.507 87	0.666 76	0.636 76	0.682 85	0.541 87	0.886 56	0.799 66	0.594 74

Supervoxel-CNN	0.635 75	0.656 91	0.711 76	0.719 68	0.613 66	0.757 92	0.444 73	0.765 57	0.534 75	0.566 57	0.928 94	0.478 57	0.272 52	0.636 47	0.531 90	0.664 62	0.645 96	0.508 94	0.864 79	0.792 76	0.611 63

joint point-based	0.634 76	0.614 99	0.778 45	0.667 85	0.633 63	0.825 49	0.420 81	0.804 47	0.467 95	0.561 58	0.951 48	0.494 49	0.291 39	0.566 68	0.458 97	0.579 93	0.764 49	0.559 76	0.838 86	0.814 58	0.598 72
Hung-Yueh Chiang, Yen-Liang Lin, Yueh-Cheng Liu, Winston H. Hsu: A Unified Point-Based Framework for 3D Segmentation. 3DV 2019
PointMTL	0.632 77	0.731 73	0.688 91	0.675 80	0.591 72	0.784 80	0.444 73	0.565 100	0.610 44	0.492 80	0.949 56	0.456 66	0.254 63	0.587 60	0.706 67	0.599 86	0.665 91	0.612 52	0.868 77	0.791 79	0.579 77

3DSM_DMMF	0.631 78	0.626 96	0.745 66	0.801 45	0.607 67	0.751 93	0.506 37	0.729 70	0.565 68	0.491 81	0.866 111	0.434 75	0.197 87	0.595 58	0.630 80	0.709 43	0.705 77	0.560 74	0.875 66	0.740 96	0.491 101

PointNet2-SFPN	0.631 78	0.771 54	0.692 88	0.672 81	0.524 90	0.837 36	0.440 75	0.706 77	0.538 74	0.446 91	0.944 72	0.421 85	0.219 75	0.552 74	0.751 59	0.591 89	0.737 64	0.543 86	0.901 46	0.768 88	0.557 87

APCF-Net	0.631 78	0.742 68	0.687 93	0.672 81	0.557 85	0.792 78	0.408 83	0.665 85	0.545 73	0.508 76	0.952 46	0.428 80	0.186 90	0.634 49	0.702 69	0.620 79	0.706 76	0.555 78	0.873 70	0.798 68	0.581 76
Haojia, Lin: Adaptive Pyramid Context Fusion for Point Cloud Perception. GRSL
FusionAwareConv	0.630 81	0.604 101	0.741 70	0.766 59	0.590 73	0.747 94	0.501 40	0.734 68	0.503 85	0.527 69	0.919 100	0.454 67	0.323 25	0.550 76	0.420 101	0.678 57	0.688 83	0.544 84	0.896 49	0.795 70	0.627 61
Jiazhao Zhang, Chenyang Zhu, Lintao Zheng, Kai Xu: Fusion-Aware Point Convolution for Online Semantic 3D Scene Segmentation. CVPR 2020
DenSeR	0.628 82	0.800 40	0.625 104	0.719 68	0.545 87	0.806 68	0.445 70	0.597 93	0.448 100	0.519 74	0.938 82	0.481 55	0.328 23	0.489 91	0.499 95	0.657 66	0.759 54	0.592 61	0.881 60	0.797 69	0.634 58

SegGroup_sem	0.627 83	0.818 35	0.747 65	0.701 72	0.602 69	0.764 89	0.385 94	0.629 90	0.490 88	0.508 76	0.931 93	0.409 88	0.201 84	0.564 69	0.725 63	0.618 80	0.692 81	0.539 88	0.873 70	0.794 71	0.548 90
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
SIConv	0.625 84	0.830 31	0.694 86	0.757 61	0.563 83	0.772 87	0.448 67	0.647 88	0.520 79	0.509 75	0.949 56	0.431 78	0.191 88	0.496 89	0.614 82	0.647 71	0.672 89	0.535 90	0.876 65	0.783 82	0.571 79

dtc_net	0.625 84	0.703 84	0.751 61	0.794 48	0.535 88	0.848 26	0.480 51	0.676 83	0.528 77	0.469 86	0.944 72	0.454 67	0.004 117	0.464 94	0.636 79	0.704 46	0.758 55	0.548 83	0.924 29	0.787 80	0.492 100

HPEIN	0.618 86	0.729 74	0.668 94	0.647 92	0.597 71	0.766 88	0.414 82	0.680 80	0.520 79	0.525 70	0.946 63	0.432 76	0.215 77	0.493 90	0.599 83	0.638 75	0.617 101	0.570 68	0.897 48	0.806 62	0.605 69
Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi-Wing Fu, Jiaya Jia: Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation. ICCV 2019
SPH3D-GCN	0.610 87	0.858 24	0.772 47	0.489 109	0.532 89	0.792 78	0.404 86	0.643 89	0.570 67	0.507 78	0.935 86	0.414 87	0.046 114	0.510 84	0.702 69	0.602 85	0.705 77	0.549 82	0.859 81	0.773 87	0.534 93
Huan Lei, Naveed Akhtar, and Ajmal Mian: Spherical Kernel for Efficient Graph Convolution on 3D Point Clouds. TPAMI 2020
AttAN	0.609 88	0.760 59	0.667 95	0.649 91	0.521 91	0.793 76	0.457 61	0.648 87	0.528 77	0.434 96	0.947 60	0.401 90	0.153 102	0.454 95	0.721 65	0.648 70	0.717 71	0.536 89	0.904 41	0.765 89	0.485 102
Gege Zhang, Qinghua Ma, Licheng Jiao, Fang Liu and Qigong Sun: AttAN: Attention Adversarial Networks for 3D Point Cloud Semantic Segmentation. IJCAI2020
wsss-transformer	0.600 89	0.634 95	0.743 68	0.697 75	0.601 70	0.781 81	0.437 77	0.585 96	0.493 87	0.446 91	0.933 91	0.394 91	0.011 116	0.654 43	0.661 78	0.603 84	0.733 66	0.526 91	0.832 87	0.761 91	0.480 103

LAP-D	0.594 90	0.720 79	0.692 88	0.637 97	0.456 101	0.773 86	0.391 92	0.730 69	0.587 57	0.445 93	0.940 80	0.381 94	0.288 40	0.434 98	0.453 99	0.591 89	0.649 94	0.581 66	0.777 95	0.749 95	0.610 65

DPC	0.592 91	0.720 79	0.700 82	0.602 101	0.480 97	0.762 91	0.380 95	0.713 75	0.585 60	0.437 94	0.940 80	0.369 96	0.288 40	0.434 98	0.509 94	0.590 91	0.639 99	0.567 72	0.772 97	0.755 93	0.592 75
Francis Engelmann, Theodora Kontogianni, Bastian Leibe: Dilated Point Convolutions: On the Receptive Field Size of Point Convolutions on 3D Point Clouds. ICRA 2020
CCRFNet	0.589 92	0.766 58	0.659 99	0.683 78	0.470 100	0.740 96	0.387 93	0.620 92	0.490 88	0.476 84	0.922 98	0.355 99	0.245 67	0.511 83	0.511 93	0.571 94	0.643 97	0.493 98	0.872 72	0.762 90	0.600 71

ROSMRF	0.580 93	0.772 53	0.707 78	0.681 79	0.563 83	0.764 89	0.362 97	0.515 105	0.465 96	0.465 88	0.936 85	0.427 82	0.207 79	0.438 96	0.577 85	0.536 97	0.675 88	0.486 99	0.723 103	0.779 83	0.524 96

SD-DETR	0.576 94	0.746 65	0.609 108	0.445 113	0.517 92	0.643 108	0.366 96	0.714 74	0.456 98	0.468 87	0.870 110	0.432 76	0.264 59	0.558 72	0.674 73	0.586 92	0.688 83	0.482 100	0.739 101	0.733 98	0.537 92

SQN_0.1%	0.569 95	0.676 88	0.696 85	0.657 87	0.497 93	0.779 84	0.424 79	0.548 101	0.515 81	0.376 101	0.902 107	0.422 84	0.357 9	0.379 103	0.456 98	0.596 88	0.659 92	0.544 84	0.685 106	0.665 109	0.556 88

TextureNet	0.566 96	0.672 90	0.664 96	0.671 83	0.494 95	0.719 98	0.445 70	0.678 82	0.411 106	0.396 99	0.935 86	0.356 98	0.225 72	0.412 100	0.535 89	0.565 95	0.636 100	0.464 102	0.794 94	0.680 106	0.568 82
Jingwei Huang, Haotian Zhang, Li Yi, Thomas Funkerhouser, Matthias Niessner, Leonidas Guibas: TextureNet: Consistent Local Parametrizations for Learning from High-Resolution Signals on Meshes. CVPR
DVVNet	0.562 97	0.648 92	0.700 82	0.770 56	0.586 76	0.687 102	0.333 101	0.650 86	0.514 82	0.475 85	0.906 104	0.359 97	0.223 74	0.340 105	0.442 100	0.422 108	0.668 90	0.501 95	0.708 104	0.779 83	0.534 93

Pointnet++ & Feature	0.557 98	0.735 70	0.661 98	0.686 77	0.491 96	0.744 95	0.392 90	0.539 102	0.451 99	0.375 102	0.946 63	0.376 95	0.205 81	0.403 101	0.356 105	0.553 96	0.643 97	0.497 96	0.824 90	0.756 92	0.515 97

GMLPs	0.538 99	0.495 110	0.693 87	0.647 92	0.471 99	0.793 76	0.300 104	0.477 106	0.505 84	0.358 104	0.903 106	0.327 102	0.081 111	0.472 93	0.529 91	0.448 106	0.710 72	0.509 92	0.746 99	0.737 97	0.554 89

PanopticFusion-label	0.529 100	0.491 111	0.688 91	0.604 100	0.386 106	0.632 109	0.225 114	0.705 78	0.434 103	0.293 110	0.815 112	0.348 100	0.241 68	0.499 88	0.669 74	0.507 99	0.649 94	0.442 108	0.796 93	0.602 113	0.561 85
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
subcloud_weak	0.516 101	0.676 88	0.591 111	0.609 98	0.442 102	0.774 85	0.335 100	0.597 93	0.422 105	0.357 105	0.932 92	0.341 101	0.094 110	0.298 107	0.528 92	0.473 104	0.676 87	0.495 97	0.602 112	0.721 101	0.349 113

Online SegFusion	0.515 102	0.607 100	0.644 102	0.579 103	0.434 103	0.630 110	0.353 98	0.628 91	0.440 101	0.410 97	0.762 116	0.307 104	0.167 97	0.520 81	0.403 103	0.516 98	0.565 104	0.447 106	0.678 107	0.701 103	0.514 98
Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstroem, Cristian Sminchisescu, Luc van Gool: A Real-Time Learning Framework for Joint 3D Reconstruction and Semantic Segmentation. Robotics and Automation Letters Submission
3DMV, FTSDF	0.501 103	0.558 105	0.608 109	0.424 115	0.478 98	0.690 101	0.246 110	0.586 95	0.468 94	0.450 90	0.911 102	0.394 91	0.160 100	0.438 96	0.212 112	0.432 107	0.541 110	0.475 101	0.742 100	0.727 99	0.477 104

PCNN	0.498 104	0.559 104	0.644 102	0.560 105	0.420 105	0.711 100	0.229 112	0.414 107	0.436 102	0.352 106	0.941 78	0.324 103	0.155 101	0.238 112	0.387 104	0.493 100	0.529 111	0.509 92	0.813 92	0.751 94	0.504 99

Weakly-Openseg v3	0.489 105	0.749 64	0.664 96	0.646 94	0.496 94	0.559 114	0.122 117	0.577 97	0.257 117	0.364 103	0.805 113	0.198 115	0.096 109	0.510 84	0.496 96	0.361 112	0.563 105	0.359 115	0.777 95	0.644 110	0.532 95

3DMV	0.484 106	0.484 112	0.538 113	0.643 95	0.424 104	0.606 113	0.310 102	0.574 98	0.433 104	0.378 100	0.796 114	0.301 105	0.214 78	0.537 79	0.208 113	0.472 105	0.507 114	0.413 111	0.693 105	0.602 113	0.539 91
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
PointCNN with RGB	0.458 107	0.577 103	0.611 107	0.356 117	0.321 114	0.715 99	0.299 106	0.376 111	0.328 113	0.319 108	0.944 72	0.285 107	0.164 98	0.216 115	0.229 110	0.484 102	0.545 109	0.456 104	0.755 98	0.709 102	0.475 105
Yangyan Li, Rui Bu, Mingchao Sun, Baoquan Chen: PointCNN. NeurIPS 2018
FCPN	0.447 108	0.679 87	0.604 110	0.578 104	0.380 107	0.682 103	0.291 107	0.106 117	0.483 91	0.258 115	0.920 99	0.258 111	0.025 115	0.231 114	0.325 106	0.480 103	0.560 107	0.463 103	0.725 102	0.666 108	0.231 117
Dario Rethage, Johanna Wald, Jürgen Sturm, Nassir Navab, Federico Tombari: Fully-Convolutional Point Networks for Large-Scale Point Clouds. ECCV 2018
DGCNN_reproduce	0.446 109	0.474 113	0.623 105	0.463 111	0.366 109	0.651 106	0.310 102	0.389 110	0.349 111	0.330 107	0.937 83	0.271 109	0.126 106	0.285 108	0.224 111	0.350 114	0.577 103	0.445 107	0.625 110	0.723 100	0.394 109
Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E. Sarma, Michael M. Bronstein, Justin M. Solomon: Dynamic Graph CNN for Learning on Point Clouds. TOG 2019
PNET2	0.442 110	0.548 107	0.548 112	0.597 102	0.363 110	0.628 111	0.300 104	0.292 112	0.374 108	0.307 109	0.881 109	0.268 110	0.186 90	0.238 112	0.204 114	0.407 109	0.506 115	0.449 105	0.667 108	0.620 112	0.462 107

SurfaceConvPF	0.442 110	0.505 109	0.622 106	0.380 116	0.342 112	0.654 105	0.227 113	0.397 109	0.367 109	0.276 112	0.924 96	0.240 112	0.198 86	0.359 104	0.262 108	0.366 110	0.581 102	0.435 109	0.640 109	0.668 107	0.398 108
Hao Pan, Shilin Liu, Yang Liu, Xin Tong: Convolutional Neural Networks on 3D Surfaces Using Parallel Frames.
Tangent Convolutions	0.438 112	0.437 115	0.646 101	0.474 110	0.369 108	0.645 107	0.353 98	0.258 114	0.282 115	0.279 111	0.918 101	0.298 106	0.147 105	0.283 109	0.294 107	0.487 101	0.562 106	0.427 110	0.619 111	0.633 111	0.352 112
Maxim Tatarchenko, Jaesik Park, Vladlen Koltun, Qian-Yi Zhou: Tangent convolutions for dense prediction in 3d. CVPR 2018
3DWSSS	0.425 113	0.525 108	0.647 100	0.522 106	0.324 113	0.488 117	0.077 118	0.712 76	0.353 110	0.401 98	0.636 118	0.281 108	0.176 93	0.340 105	0.565 87	0.175 118	0.551 108	0.398 112	0.370 118	0.602 113	0.361 111

SPLAT Net	0.393 114	0.472 114	0.511 114	0.606 99	0.311 115	0.656 104	0.245 111	0.405 108	0.328 113	0.197 116	0.927 95	0.227 114	0.000 119	0.001 119	0.249 109	0.271 117	0.510 112	0.383 114	0.593 113	0.699 104	0.267 115
Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz: SPLATNet: Sparse Lattice Networks for Point Cloud Processing. CVPR 2018
ScanNet+FTSDF	0.383 115	0.297 117	0.491 115	0.432 114	0.358 111	0.612 112	0.274 108	0.116 116	0.411 106	0.265 113	0.904 105	0.229 113	0.079 112	0.250 110	0.185 115	0.320 115	0.510 112	0.385 113	0.548 114	0.597 116	0.394 109

PointNet++	0.339 116	0.584 102	0.478 116	0.458 112	0.256 117	0.360 118	0.250 109	0.247 115	0.278 116	0.261 114	0.677 117	0.183 116	0.117 107	0.212 116	0.145 117	0.364 111	0.346 118	0.232 118	0.548 114	0.523 117	0.252 116
Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas: pointnet++: deep hierarchical feature learning on point sets in a metric space.
SSC-UNet	0.308 117	0.353 116	0.290 118	0.278 118	0.166 118	0.553 115	0.169 116	0.286 113	0.147 118	0.148 118	0.908 103	0.182 117	0.064 113	0.023 118	0.018 119	0.354 113	0.363 116	0.345 116	0.546 116	0.685 105	0.278 114

ScanNet	0.306 118	0.203 118	0.366 117	0.501 107	0.311 115	0.524 116	0.211 115	0.002 119	0.342 112	0.189 117	0.786 115	0.145 118	0.102 108	0.245 111	0.152 116	0.318 116	0.348 117	0.300 117	0.460 117	0.437 118	0.182 118
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17
ERROR	0.054 119	0.000 119	0.041 119	0.172 119	0.030 119	0.062 119	0.001 119	0.035 118	0.004 119	0.051 119	0.143 119	0.019 119	0.003 118	0.041 117	0.050 118	0.003 119	0.054 119	0.018 119	0.005 119	0.264 119	0.082 119

This table lists the benchmark results for the 3D semantic instance scenario.

Method	avg ap 25%	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

PointRel	0.901 1	1.000 1	0.978 21	0.928 3	0.879 1	0.962 3	0.882 3	0.749 34	0.947 3	0.912 1	0.802 3	0.753 15	0.820 2	1.000 1	0.984 4	0.919 5	0.894 3	1.000 1	0.815 12
: Relation3D (PointRel): Enhancing Relation Modeling for Point Cloud Instance Segmentation.
OneFormer3D	0.896 2	1.000 1	1.000 1	0.913 6	0.858 6	0.951 7	0.786 12	0.837 17	0.916 12	0.908 2	0.778 7	0.803 4	0.750 13	1.000 1	0.976 5	0.926 4	0.882 7	0.995 45	0.849 1
Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: OneFormer3D: One Transformer for Unified Point Cloud Segmentation.
MG-Former	0.887 3	1.000 1	0.991 12	0.837 24	0.801 21	0.935 16	0.887 2	0.857 9	0.946 4	0.891 8	0.748 15	0.805 3	0.739 15	1.000 1	0.993 2	0.809 55	0.876 14	1.000 1	0.842 3

UniPerception	0.884 4	1.000 1	0.979 18	0.872 16	0.869 3	0.892 25	0.806 9	0.890 5	0.835 28	0.892 7	0.755 12	0.811 1	0.779 10	0.955 45	0.951 6	0.876 22	0.914 1	0.997 37	0.840 4

InsSSM	0.883 5	1.000 1	0.996 4	0.800 37	0.865 4	0.960 4	0.808 8	0.852 14	0.940 6	0.899 6	0.785 4	0.810 2	0.700 19	1.000 1	0.912 17	0.851 40	0.895 2	0.997 37	0.827 6

Competitor-SPFormer	0.881 6	1.000 1	1.000 1	0.845 22	0.854 7	0.962 2	0.714 19	0.857 10	0.904 14	0.902 4	0.782 6	0.789 9	0.662 25	1.000 1	0.988 3	0.874 25	0.886 6	0.997 37	0.847 2

TST3D	0.879 7	1.000 1	0.994 7	0.921 5	0.807 20	0.939 13	0.771 13	0.887 6	0.923 10	0.862 15	0.722 20	0.768 12	0.756 12	1.000 1	0.910 27	0.904 7	0.836 24	0.999 36	0.824 8
Duc Tran Dang Trung, Byeongkeun Kang, Yeejin Lee: MSTA3D: Multi-scale Twin-attention for 3D Instance Segmentation. ACM Multimedia 2024
SIM3D	0.878 8	1.000 1	0.972 23	0.863 18	0.817 18	0.952 6	0.821 6	0.783 28	0.890 17	0.902 5	0.735 18	0.797 5	0.799 9	1.000 1	0.931 14	0.893 13	0.853 20	1.000 1	0.792 15

EV3D	0.877 9	1.000 1	0.996 6	0.873 14	0.854 8	0.950 8	0.691 23	0.783 29	0.926 7	0.889 11	0.754 13	0.794 8	0.820 2	1.000 1	0.912 17	0.900 9	0.860 18	1.000 1	0.779 18

Spherical Mask(CtoF)	0.875 10	1.000 1	0.991 13	0.873 14	0.850 9	0.946 10	0.691 23	0.752 33	0.926 7	0.889 10	0.759 10	0.794 7	0.820 2	1.000 1	0.912 17	0.900 9	0.878 11	1.000 1	0.769 20

TD3D	0.875 10	1.000 1	0.976 22	0.877 12	0.783 27	0.970 1	0.889 1	0.828 18	0.945 5	0.803 20	0.713 22	0.720 22	0.709 17	1.000 1	0.936 12	0.934 3	0.873 15	1.000 1	0.791 16
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
Queryformer	0.874 12	1.000 1	0.978 20	0.809 35	0.876 2	0.936 15	0.702 20	0.716 39	0.920 11	0.875 14	0.766 8	0.772 11	0.818 6	1.000 1	0.995 1	0.916 6	0.892 4	1.000 1	0.767 21

SoftGroup++	0.874 12	1.000 1	0.972 24	0.947 1	0.839 12	0.898 24	0.556 38	0.913 2	0.881 20	0.756 22	0.828 2	0.748 17	0.821 1	1.000 1	0.937 11	0.937 1	0.887 5	1.000 1	0.821 9

Mask3D	0.870 14	1.000 1	0.985 15	0.782 44	0.818 17	0.938 14	0.760 14	0.749 34	0.923 9	0.877 13	0.760 9	0.785 10	0.820 2	1.000 1	0.912 17	0.864 34	0.878 11	0.983 51	0.825 7
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
ExtMask3D	0.867 15	1.000 1	1.000 1	0.756 51	0.816 19	0.940 12	0.795 10	0.760 32	0.862 22	0.888 12	0.739 16	0.763 13	0.774 11	1.000 1	0.929 15	0.878 21	0.879 9	1.000 1	0.819 11

SoftGroup	0.865 16	1.000 1	0.969 25	0.860 19	0.860 5	0.913 20	0.558 35	0.899 3	0.911 13	0.760 21	0.828 1	0.736 19	0.802 8	0.981 42	0.919 16	0.875 23	0.877 13	1.000 1	0.820 10
Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo: SoftGroup for 3D Instance Segmentaiton on Point Clouds. CVPR 2022 [Oral]
MAFT	0.860 17	1.000 1	0.990 14	0.810 34	0.829 13	0.949 9	0.809 7	0.688 45	0.836 27	0.904 3	0.751 14	0.796 6	0.741 14	1.000 1	0.864 37	0.848 42	0.837 22	1.000 1	0.828 5

SPFormer	0.851 18	1.000 1	0.994 8	0.806 36	0.774 29	0.942 11	0.637 27	0.849 15	0.859 24	0.889 9	0.720 21	0.730 20	0.665 24	1.000 1	0.911 24	0.868 32	0.873 16	1.000 1	0.796 14
Sun Jiahao, Qing Chunmei, Tan Junpeng, Xu Xiangmin: Superpoint Transformer for 3D Scene Instance Segmentation. AAAI 2023 [Oral]
IPCA-Inst	0.851 18	1.000 1	0.968 26	0.884 11	0.842 11	0.862 37	0.693 22	0.812 23	0.888 19	0.677 34	0.783 5	0.698 23	0.807 7	1.000 1	0.911 24	0.865 33	0.865 17	1.000 1	0.757 24

Mask3D_evaluation	0.843 20	1.000 1	0.955 31	0.847 21	0.795 23	0.932 17	0.750 16	0.780 30	0.891 16	0.818 17	0.737 17	0.633 32	0.703 18	1.000 1	0.902 29	0.870 28	0.820 25	0.941 59	0.805 13

ISBNet	0.835 21	1.000 1	0.950 32	0.731 53	0.819 15	0.918 18	0.790 11	0.740 36	0.851 26	0.831 16	0.661 30	0.742 18	0.650 28	1.000 1	0.937 10	0.814 54	0.836 23	1.000 1	0.765 22
Tuan Duc Ngo, Binh-Son Hua, Khoi Nguyen: ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution. CVPR 2023
SphereSeg	0.835 21	1.000 1	0.963 29	0.891 9	0.794 24	0.954 5	0.822 5	0.710 40	0.961 2	0.721 26	0.693 28	0.530 45	0.653 27	1.000 1	0.867 36	0.857 37	0.859 19	0.991 48	0.771 19

GraphCut	0.832 23	1.000 1	0.922 46	0.724 55	0.798 22	0.902 23	0.701 21	0.856 12	0.859 23	0.715 27	0.706 23	0.748 16	0.640 39	1.000 1	0.934 13	0.862 35	0.880 8	1.000 1	0.729 27

TopoSeg	0.832 23	1.000 1	0.981 17	0.933 2	0.819 16	0.826 46	0.524 44	0.841 16	0.811 32	0.681 33	0.759 11	0.687 24	0.727 16	0.981 42	0.911 24	0.883 17	0.853 21	1.000 1	0.756 25

PBNet	0.825 25	1.000 1	0.963 28	0.837 26	0.843 10	0.865 32	0.822 4	0.647 48	0.878 21	0.733 24	0.639 37	0.683 25	0.650 28	1.000 1	0.853 38	0.870 29	0.820 26	1.000 1	0.744 26
W.Zhao, Y.Yan, C.Yang, J.Ye,X.Yang,K.Huang: Divide and Conquer: 3D Instance Segmentation With Point-Wise Binarization. ICCV 2023
SSEC	0.820 26	1.000 1	0.983 16	0.924 4	0.826 14	0.817 49	0.415 53	0.899 4	0.793 36	0.673 35	0.731 19	0.636 30	0.653 26	1.000 1	0.939 9	0.804 57	0.878 10	1.000 1	0.780 17

DKNet	0.815 27	1.000 1	0.930 38	0.844 23	0.765 33	0.915 19	0.534 42	0.805 25	0.805 34	0.807 19	0.654 31	0.763 14	0.650 28	1.000 1	0.794 50	0.881 18	0.766 30	1.000 1	0.758 23
Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong: 3D Instances as 1D Kernels. ECCV 2022
RPGN	0.806 28	1.000 1	0.992 10	0.789 39	0.723 46	0.891 26	0.650 26	0.810 24	0.832 29	0.665 37	0.699 26	0.658 26	0.700 19	1.000 1	0.881 31	0.832 46	0.774 28	0.997 37	0.613 47
Shichao Dong, Guosheng Lin, Tzu-Yi Hung: Learning Regional Purity for Instance Segmentation on 3D Point Clouds. ECCV 2022
Box2Mask	0.803 29	1.000 1	0.962 30	0.874 13	0.707 50	0.887 29	0.686 25	0.598 53	0.961 1	0.715 28	0.694 27	0.469 50	0.700 19	1.000 1	0.912 17	0.902 8	0.753 35	0.997 37	0.637 41
Julian Chibane, Francis Engelmann, Tuan Anh Tran, Gerard Pons-Moll: Box2Mask: Weakly Supervised 3D Semantic Instance Segmentation Using Bounding Boxes. ECCV 2022
HAIS	0.803 29	1.000 1	0.994 8	0.820 30	0.759 34	0.855 38	0.554 39	0.882 7	0.827 31	0.615 43	0.676 29	0.638 29	0.646 37	1.000 1	0.912 17	0.797 60	0.767 29	0.994 46	0.726 28
Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang: Hierarchical Aggregation for 3D Instance Segmentation. ICCV 2021
Mask-Group	0.792 31	1.000 1	0.968 27	0.812 31	0.766 32	0.864 33	0.460 47	0.815 22	0.888 18	0.598 47	0.651 34	0.639 28	0.600 45	0.918 48	0.941 7	0.896 12	0.721 42	1.000 1	0.723 29
Min Zhong, Xinghao Chen, Xiaokang Chen, Gang Zeng, Yunhe Wang: MaskGroup: Hierarchical Point Grouping and Masking for 3D Instance Segmentation. ICME 2022
CSC-Pretrained	0.791 32	1.000 1	0.996 4	0.829 29	0.767 31	0.889 28	0.600 30	0.819 21	0.770 41	0.594 48	0.620 41	0.541 42	0.700 19	1.000 1	0.941 7	0.889 15	0.763 31	1.000 1	0.526 57

SSTNet	0.789 33	1.000 1	0.840 60	0.888 10	0.717 47	0.835 42	0.717 18	0.684 46	0.627 56	0.724 25	0.652 33	0.727 21	0.600 45	1.000 1	0.912 17	0.822 49	0.757 34	1.000 1	0.691 35
Zhihao Liang, Zhihao Li, Songcen Xu, Mingkui Tan, Kui Jia: Instance Segmentation in 3D Scenes using Semantic Superpoint Tree Networks. ICCV2021
GICN	0.788 34	1.000 1	0.978 19	0.867 17	0.781 28	0.833 43	0.527 43	0.824 19	0.806 33	0.549 56	0.596 44	0.551 38	0.700 19	1.000 1	0.853 38	0.935 2	0.733 39	1.000 1	0.651 38

DENet	0.786 35	1.000 1	0.929 39	0.736 52	0.750 40	0.720 62	0.755 15	0.934 1	0.794 35	0.590 49	0.561 50	0.537 43	0.650 28	1.000 1	0.882 30	0.804 58	0.789 27	1.000 1	0.719 30

DANCENET	0.786 35	1.000 1	0.936 35	0.783 42	0.737 43	0.852 40	0.742 17	0.647 48	0.765 43	0.811 18	0.624 40	0.579 35	0.632 42	1.000 1	0.909 28	0.898 11	0.696 47	0.944 55	0.601 50

DualGroup	0.782 37	1.000 1	0.927 40	0.811 32	0.772 30	0.853 39	0.631 29	0.805 25	0.773 38	0.613 44	0.611 42	0.610 33	0.650 28	0.835 59	0.881 31	0.879 20	0.750 37	1.000 1	0.675 36

PointGroup	0.778 38	1.000 1	0.900 50	0.798 38	0.715 48	0.863 34	0.493 45	0.706 41	0.895 15	0.569 54	0.701 24	0.576 36	0.639 40	1.000 1	0.880 33	0.851 39	0.719 43	0.997 37	0.709 32
Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia: PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation. CVPR 2020 [oral]
PE	0.776 39	1.000 1	0.900 51	0.860 19	0.728 45	0.869 30	0.400 54	0.857 11	0.774 37	0.568 55	0.701 25	0.602 34	0.646 37	0.933 47	0.843 41	0.890 14	0.691 51	0.997 37	0.709 31
Biao Zhang, Peter Wonka: Point Cloud Instance Segmentation using Probabilistic Embeddings. CVPR 2021
AOIA	0.767 40	1.000 1	0.937 34	0.810 33	0.740 42	0.906 21	0.550 40	0.800 27	0.706 48	0.577 53	0.624 39	0.544 41	0.596 50	0.857 51	0.879 35	0.880 19	0.750 36	0.992 47	0.658 37

DD-UNet+Group	0.764 41	1.000 1	0.897 53	0.837 25	0.753 37	0.830 45	0.459 49	0.824 19	0.699 50	0.629 41	0.653 32	0.438 53	0.650 28	1.000 1	0.880 33	0.858 36	0.690 52	1.000 1	0.650 39
H. Liu, R. Liu, K. Yang, J. Zhang, K. Peng, R. Stiefelhagen: HIDA: Towards Holistic Indoor Understanding for the Visually Impaired via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor. ICCVW 2021
INS-Conv-instance	0.762 42	1.000 1	0.923 43	0.765 47	0.785 26	0.905 22	0.600 30	0.655 47	0.646 55	0.683 32	0.647 35	0.530 44	0.650 28	1.000 1	0.824 43	0.830 47	0.693 50	0.944 55	0.644 40

Dyco3D	0.761 43	1.000 1	0.935 36	0.893 8	0.752 39	0.863 35	0.600 30	0.588 54	0.742 45	0.641 39	0.633 38	0.546 40	0.550 52	0.857 51	0.789 52	0.853 38	0.762 32	0.987 49	0.699 33
Tong He; Chunhua Shen; Anton van den Hengel: DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution. CVPR2021
OccuSeg+instance	0.742 44	1.000 1	0.923 43	0.785 40	0.745 41	0.867 31	0.557 36	0.578 57	0.729 46	0.670 36	0.644 36	0.488 48	0.577 51	1.000 1	0.794 50	0.830 47	0.620 60	1.000 1	0.550 53
Lei Han, Tian Zheng, Lan Xu, Lu Fang: OccuSeg: Occupancy-aware 3D Instance Segmentation. CVPR2020
RWSeg	0.739 45	1.000 1	0.899 52	0.759 49	0.753 38	0.823 47	0.282 59	0.691 44	0.658 53	0.582 52	0.594 45	0.547 39	0.628 43	1.000 1	0.795 49	0.868 31	0.728 41	1.000 1	0.692 34

3D-MPA	0.737 46	1.000 1	0.933 37	0.785 40	0.794 25	0.831 44	0.279 61	0.588 54	0.695 51	0.616 42	0.559 51	0.556 37	0.650 28	1.000 1	0.809 47	0.875 24	0.696 48	1.000 1	0.608 49
Francis Engelmann, Martin Bokeloh, Alireza Fathi, Bastian Leibe, Matthias Nießner: 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation. CVPR 2020
MTML	0.731 47	1.000 1	0.992 10	0.779 46	0.609 59	0.746 57	0.308 58	0.867 8	0.601 59	0.607 45	0.539 54	0.519 46	0.550 52	1.000 1	0.824 43	0.869 30	0.729 40	1.000 1	0.616 45
Jean Lahoud, Bernard Ghanem, Marc Pollefeys, Martin R. Oswald: 3D Instance Segmentation via Multi-task Metric Learning. ICCV 2019 [oral]
OSIS	0.725 48	1.000 1	0.885 56	0.653 61	0.657 56	0.801 50	0.576 34	0.695 43	0.828 30	0.698 30	0.534 55	0.457 52	0.500 59	0.857 51	0.831 42	0.841 44	0.627 58	1.000 1	0.619 44

SSEN	0.724 49	1.000 1	0.926 41	0.781 45	0.661 54	0.845 41	0.596 33	0.529 60	0.764 44	0.653 38	0.489 61	0.461 51	0.500 59	0.859 50	0.765 53	0.872 27	0.761 33	1.000 1	0.577 51
Dongsu Zhang, Junha Chun, Sang Kyun Cha, Young Min Kim: Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with Deep Metric Learning. Arxiv
NeuralBF	0.718 50	1.000 1	0.945 33	0.901 7	0.754 36	0.817 48	0.460 47	0.700 42	0.772 39	0.688 31	0.568 49	0.000 72	0.500 59	0.981 42	0.606 63	0.872 26	0.740 38	1.000 1	0.614 46
Weiwei Sun, Daniel Rebain, Renjie Liao, Vladimir Tankovich, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi: NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation on Point Clouds. WACV 2023
Sparse R-CNN	0.714 51	1.000 1	0.926 42	0.694 56	0.699 52	0.890 27	0.636 28	0.516 61	0.693 52	0.743 23	0.588 46	0.369 57	0.601 44	0.594 65	0.800 48	0.886 16	0.676 53	0.986 50	0.546 54

SALoss-ResNet	0.695 52	1.000 1	0.855 58	0.579 66	0.589 61	0.735 60	0.484 46	0.588 54	0.856 25	0.634 40	0.571 48	0.298 58	0.500 59	1.000 1	0.824 43	0.818 50	0.702 46	0.935 62	0.545 55
Zhidong Liang, Ming Yang, Hao Li, Chunxiang Wang: 3D Instance Embedding Learning With a Structure-Aware Loss Function for Point Cloud Segmentation. IEEE Robotics and Automation Letters (IROS2020)
PanopticFusion-inst	0.693 53	1.000 1	0.852 59	0.655 60	0.616 58	0.788 52	0.334 56	0.763 31	0.771 40	0.457 66	0.555 52	0.652 27	0.518 56	0.857 51	0.765 53	0.732 66	0.631 56	0.944 55	0.577 52
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
Occipital-SCS	0.688 54	1.000 1	0.913 47	0.730 54	0.737 44	0.743 59	0.442 50	0.855 13	0.655 54	0.546 57	0.546 53	0.263 60	0.508 58	0.889 49	0.568 64	0.771 63	0.705 45	0.889 65	0.625 43

3D-BoNet	0.687 55	1.000 1	0.887 55	0.836 27	0.587 62	0.643 69	0.550 40	0.620 50	0.724 47	0.522 61	0.501 59	0.243 61	0.512 57	1.000 1	0.751 55	0.807 56	0.661 55	0.909 64	0.612 48
Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen Wang, Andrew Markham, Niki Trigoni: Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds. NeurIPS 2019 Spotlight
ClickSeg_Instance	0.685 56	1.000 1	0.818 62	0.600 64	0.715 49	0.795 51	0.557 36	0.533 59	0.591 61	0.601 46	0.519 57	0.429 55	0.638 41	0.938 46	0.706 58	0.817 52	0.624 59	0.944 55	0.502 59

PCJC	0.684 57	1.000 1	0.895 54	0.757 50	0.659 55	0.862 36	0.189 68	0.739 37	0.606 58	0.712 29	0.581 47	0.515 47	0.650 28	0.857 51	0.357 69	0.785 61	0.631 57	0.889 65	0.635 42

SPG_WSIS	0.678 58	1.000 1	0.880 57	0.836 27	0.701 51	0.727 61	0.273 63	0.607 52	0.706 49	0.541 59	0.515 58	0.174 64	0.600 45	0.857 51	0.716 57	0.846 43	0.711 44	1.000 1	0.506 58

One_Thing_One_Click	0.675 59	1.000 1	0.823 61	0.782 43	0.621 57	0.766 54	0.211 65	0.736 38	0.560 63	0.586 50	0.522 56	0.636 31	0.453 63	0.641 63	0.853 38	0.850 41	0.694 49	0.997 37	0.411 64
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
SegGroup_ins	0.637 60	1.000 1	0.923 45	0.593 65	0.561 63	0.746 58	0.143 70	0.504 62	0.766 42	0.485 64	0.442 62	0.372 56	0.530 55	0.714 60	0.815 46	0.775 62	0.673 54	1.000 1	0.431 63
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
MASC	0.615 61	0.711 68	0.802 63	0.540 67	0.757 35	0.777 53	0.029 71	0.577 58	0.588 62	0.521 62	0.600 43	0.436 54	0.534 54	0.697 61	0.616 62	0.838 45	0.526 62	0.980 52	0.534 56
Chen Liu, Yasutaka Furukawa: MASC: Multi-scale Affinity with Sparse Convolution for 3D Instance Segmentation.
UNet-backbone	0.605 62	1.000 1	0.909 48	0.764 48	0.603 60	0.704 63	0.415 52	0.301 67	0.548 64	0.461 65	0.394 63	0.267 59	0.386 65	0.857 51	0.649 61	0.817 51	0.504 64	0.959 53	0.356 67

3D-SIS	0.558 63	1.000 1	0.773 64	0.614 63	0.503 66	0.691 65	0.200 66	0.412 63	0.498 67	0.546 58	0.311 68	0.103 68	0.600 45	0.857 51	0.382 66	0.799 59	0.445 70	0.938 61	0.371 65
Ji Hou, Angela Dai, Matthias Niessner: 3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. CVPR 2019
R-PointNet	0.544 64	0.500 71	0.655 70	0.661 59	0.663 53	0.765 55	0.432 51	0.214 70	0.612 57	0.584 51	0.499 60	0.204 63	0.286 69	0.429 68	0.655 60	0.650 71	0.539 61	0.950 54	0.499 60

Hier3D	0.540 65	1.000 1	0.727 65	0.626 62	0.467 69	0.693 64	0.200 66	0.412 63	0.480 68	0.528 60	0.318 67	0.077 71	0.600 45	0.688 62	0.382 66	0.768 64	0.472 66	0.941 59	0.350 68
Tan: HCFS3D: Hierarchical Coupled Feature Selection Network for 3D Semantic and Instance Segmentation.
Region-18class	0.497 66	0.250 73	0.902 49	0.689 57	0.540 64	0.747 56	0.276 62	0.610 51	0.268 72	0.489 63	0.348 64	0.000 72	0.243 72	0.220 71	0.663 59	0.814 53	0.459 68	0.928 63	0.496 61

Sem_Recon_ins	0.484 67	0.764 67	0.608 72	0.470 69	0.521 65	0.637 70	0.311 57	0.218 69	0.348 71	0.365 70	0.223 69	0.222 62	0.258 70	0.629 64	0.734 56	0.596 72	0.509 63	0.858 68	0.444 62

tmp	0.474 68	1.000 1	0.727 65	0.433 71	0.481 68	0.673 67	0.022 73	0.380 65	0.517 66	0.436 68	0.338 66	0.128 66	0.343 67	0.429 68	0.291 71	0.728 67	0.473 65	0.833 69	0.300 70

SemRegionNet-20cls	0.470 69	1.000 1	0.727 65	0.447 70	0.481 67	0.678 66	0.024 72	0.380 65	0.518 65	0.440 67	0.339 65	0.128 66	0.350 66	0.429 68	0.212 72	0.711 68	0.465 67	0.833 69	0.290 71

ASIS	0.422 70	0.333 72	0.707 68	0.676 58	0.401 70	0.650 68	0.350 55	0.177 71	0.594 60	0.376 69	0.202 70	0.077 70	0.404 64	0.571 66	0.197 73	0.674 70	0.447 69	0.500 72	0.260 72

3D-BEVIS	0.401 71	0.667 69	0.687 69	0.419 72	0.137 73	0.587 71	0.188 69	0.235 68	0.359 70	0.211 72	0.093 73	0.080 69	0.311 68	0.571 66	0.382 66	0.754 65	0.300 72	0.874 67	0.357 66
Cathrin Elich, Francis Engelmann, Jonas Schult, Theodora Kontogianni, Bastian Leibe: 3D-BEVIS: Birds-Eye-View Instance Segmentation.
Sgpn_scannet	0.390 72	0.556 70	0.636 71	0.493 68	0.353 71	0.539 72	0.271 64	0.160 72	0.450 69	0.359 71	0.178 71	0.146 65	0.250 71	0.143 72	0.347 70	0.698 69	0.436 71	0.667 71	0.331 69

MaskRCNN 2d->3d Proj	0.261 73	0.903 66	0.081 73	0.008 73	0.233 72	0.175 73	0.280 60	0.106 73	0.150 73	0.203 73	0.175 72	0.480 49	0.218 73	0.143 72	0.542 65	0.404 73	0.153 73	0.393 73	0.049 73

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

Virtual MVFusion (R)	0.745 1	0.861 1	0.839 1	0.881 1	0.672 2	0.512 1	0.422 17	0.898 1	0.723 1	0.714 1	0.954 2	0.454 1	0.509 1	0.773 1	0.895 1	0.756 1	0.820 1	0.653 1	0.935 1	0.891 1	0.728 1
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
BPNet_2D	0.670 2	0.822 3	0.795 3	0.836 2	0.659 3	0.481 2	0.451 13	0.769 4	0.656 3	0.567 4	0.931 3	0.395 6	0.390 5	0.700 4	0.534 4	0.689 10	0.770 2	0.574 3	0.865 9	0.831 3	0.675 5
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia and Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MVF-GNN（2D）	0.636 3	0.606 14	0.794 4	0.434 16	0.688 1	0.337 8	0.464 12	0.798 3	0.632 5	0.589 3	0.908 8	0.420 2	0.329 12	0.743 2	0.594 2	0.738 2	0.676 5	0.527 4	0.906 2	0.818 6	0.715 3

CU-Hybrid-2D Net	0.636 3	0.825 2	0.820 2	0.179 23	0.648 4	0.463 3	0.549 2	0.742 7	0.676 2	0.628 2	0.961 1	0.420 2	0.379 6	0.684 8	0.381 18	0.732 3	0.723 3	0.599 2	0.827 16	0.851 2	0.634 7

CMX	0.613 5	0.681 8	0.725 12	0.502 12	0.634 6	0.297 18	0.478 10	0.830 2	0.651 4	0.537 7	0.924 4	0.375 7	0.315 14	0.686 7	0.451 14	0.714 5	0.543 21	0.504 6	0.894 7	0.823 5	0.688 4

DMMF_3d	0.605 6	0.651 9	0.744 10	0.782 3	0.637 5	0.387 4	0.536 3	0.732 8	0.590 7	0.540 6	0.856 21	0.359 11	0.306 15	0.596 14	0.539 3	0.627 20	0.706 4	0.497 8	0.785 21	0.757 19	0.476 22

EMSANet	0.600 7	0.716 4	0.746 9	0.395 18	0.614 9	0.382 5	0.523 4	0.713 11	0.571 11	0.503 10	0.922 6	0.404 5	0.397 4	0.655 9	0.400 16	0.626 21	0.663 6	0.469 13	0.900 4	0.827 4	0.577 14
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
MCA-Net	0.595 8	0.533 20	0.756 8	0.746 4	0.590 10	0.334 10	0.506 7	0.670 15	0.587 8	0.500 12	0.905 10	0.366 10	0.352 9	0.601 13	0.506 8	0.669 16	0.648 9	0.501 7	0.839 15	0.769 15	0.516 21

RFBNet	0.592 9	0.616 11	0.758 7	0.659 5	0.581 11	0.330 11	0.469 11	0.655 18	0.543 14	0.524 8	0.924 4	0.355 13	0.336 11	0.572 17	0.479 10	0.671 14	0.648 9	0.480 10	0.814 19	0.814 7	0.614 10

FAN_NV_RVC	0.586 10	0.510 21	0.764 6	0.079 26	0.620 8	0.330 11	0.494 8	0.753 5	0.573 9	0.556 5	0.884 16	0.405 4	0.303 16	0.718 3	0.452 13	0.672 13	0.658 7	0.509 5	0.898 5	0.813 8	0.727 2

DCRedNet	0.583 11	0.682 7	0.723 13	0.542 11	0.510 20	0.310 15	0.451 13	0.668 16	0.549 13	0.520 9	0.920 7	0.375 7	0.446 2	0.528 20	0.417 15	0.670 15	0.577 18	0.478 11	0.862 10	0.806 9	0.628 9

MIX6D_RVC	0.582 12	0.695 5	0.687 17	0.225 21	0.632 7	0.328 13	0.550 1	0.748 6	0.623 6	0.494 15	0.890 14	0.350 15	0.254 23	0.688 6	0.454 12	0.716 4	0.597 17	0.489 9	0.881 8	0.768 16	0.575 15

SSMA	0.577 13	0.695 5	0.716 15	0.439 14	0.563 14	0.314 14	0.444 15	0.719 9	0.551 12	0.503 10	0.887 15	0.346 16	0.348 10	0.603 12	0.353 20	0.709 6	0.600 15	0.457 14	0.901 3	0.786 11	0.599 13
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
DMMF	0.567 14	0.623 10	0.767 5	0.238 20	0.571 13	0.347 6	0.413 19	0.719 9	0.472 20	0.418 22	0.895 13	0.357 12	0.260 22	0.696 5	0.523 7	0.666 17	0.642 11	0.437 18	0.895 6	0.793 10	0.603 12

UNIV_CNP_RVC_UE	0.566 15	0.569 19	0.686 19	0.435 15	0.524 17	0.294 19	0.421 18	0.712 12	0.543 14	0.463 17	0.872 17	0.320 17	0.363 8	0.611 11	0.477 11	0.686 11	0.627 12	0.443 17	0.862 10	0.775 14	0.639 6

EMSAFormer	0.564 16	0.581 16	0.736 11	0.564 10	0.546 16	0.219 23	0.517 5	0.675 14	0.486 19	0.427 21	0.904 11	0.352 14	0.320 13	0.589 15	0.528 5	0.708 7	0.464 24	0.413 22	0.847 14	0.786 11	0.611 11

SN_RN152pyrx8_RVC	0.546 17	0.572 17	0.663 21	0.638 7	0.518 18	0.298 17	0.366 24	0.633 21	0.510 17	0.446 19	0.864 19	0.296 20	0.267 19	0.542 19	0.346 21	0.704 8	0.575 19	0.431 19	0.853 13	0.766 17	0.630 8

UDSSEG_RVC	0.545 18	0.610 13	0.661 22	0.588 8	0.556 15	0.268 21	0.482 9	0.642 20	0.572 10	0.475 16	0.836 23	0.312 18	0.367 7	0.630 10	0.189 23	0.639 19	0.495 23	0.452 15	0.826 17	0.756 20	0.541 17

segfomer with 6d	0.542 19	0.594 15	0.687 17	0.146 24	0.579 12	0.308 16	0.515 6	0.703 13	0.472 20	0.498 13	0.868 18	0.369 9	0.282 17	0.589 15	0.390 17	0.701 9	0.556 20	0.416 21	0.860 12	0.759 18	0.539 19

FuseNet	0.535 20	0.570 18	0.681 20	0.182 22	0.512 19	0.290 20	0.431 16	0.659 17	0.504 18	0.495 14	0.903 12	0.308 19	0.428 3	0.523 21	0.365 19	0.676 12	0.621 14	0.470 12	0.762 22	0.779 13	0.541 17
Caner Hazirbas, Lingni Ma, Csaba Domokos, Daniel Cremers: FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. ACCV 2016
AdapNet++	0.503 21	0.613 12	0.722 14	0.418 17	0.358 26	0.337 8	0.370 23	0.479 24	0.443 22	0.368 24	0.907 9	0.207 23	0.213 25	0.464 24	0.525 6	0.618 22	0.657 8	0.450 16	0.788 20	0.721 23	0.408 25
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
3DMV (2d proj)	0.498 22	0.481 24	0.612 23	0.579 9	0.456 22	0.343 7	0.384 21	0.623 22	0.525 16	0.381 23	0.845 22	0.254 22	0.264 21	0.557 18	0.182 24	0.581 24	0.598 16	0.429 20	0.760 23	0.661 25	0.446 24
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
MSeg1080_RVC	0.485 23	0.505 22	0.709 16	0.092 25	0.427 23	0.241 22	0.411 20	0.654 19	0.385 26	0.457 18	0.861 20	0.053 26	0.279 18	0.503 22	0.481 9	0.645 18	0.626 13	0.365 24	0.748 24	0.725 22	0.529 20
John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun: MSeg: A Composite Dataset for Multi-domain Semantic Segmentation. CVPR 2020
ILC-PSPNet	0.475 24	0.490 23	0.581 24	0.289 19	0.507 21	0.067 26	0.379 22	0.610 23	0.417 24	0.435 20	0.822 25	0.278 21	0.267 19	0.503 22	0.228 22	0.616 23	0.533 22	0.375 23	0.820 18	0.729 21	0.560 16

Enet (reimpl)	0.376 25	0.264 26	0.452 26	0.452 13	0.365 24	0.181 24	0.143 26	0.456 25	0.409 25	0.346 25	0.769 26	0.164 24	0.218 24	0.359 25	0.123 26	0.403 26	0.381 26	0.313 26	0.571 25	0.685 24	0.472 23
Re-implementation of Adam Paszke, Abhishek Chaurasia, Sangpil Kim, Eugenio Culurciello: ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation.
ScanNet (2d proj)	0.330 26	0.293 25	0.521 25	0.657 6	0.361 25	0.161 25	0.250 25	0.004 26	0.440 23	0.183 26	0.836 23	0.125 25	0.060 26	0.319 26	0.132 25	0.417 25	0.412 25	0.344 25	0.541 26	0.427 26	0.109 26
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

EMSANet (Instance)	0.241 1	0.401 1	0.439 1	0.085 1	0.242 1	0.220 1	0.081 1	0.289 2	0.117 2	0.121 1	0.182 1	0.126 1	0.346 1	0.181 2	0.181 2	0.358 1	0.156 1	0.675 2	0.131 1
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
UniDet_RVC	0.205 2	0.381 2	0.323 3	0.037 3	0.226 3	0.177 3	0.063 2	0.277 3	0.120 1	0.067 3	0.131 3	0.074 3	0.317 2	0.080 3	0.235 1	0.289 3	0.141 3	0.678 1	0.080 3

FKNet	0.204 3	0.334 3	0.358 2	0.038 2	0.234 2	0.184 2	0.025 3	0.318 1	0.042 4	0.088 2	0.141 2	0.053 4	0.300 3	0.207 1	0.171 3	0.292 2	0.149 2	0.636 3	0.109 2

MaskRCNN_ScanNet	0.119 4	0.129 4	0.212 4	0.002 4	0.112 4	0.148 4	0.014 4	0.205 4	0.044 3	0.066 4	0.078 4	0.095 2	0.142 4	0.030 4	0.128 4	0.139 4	0.080 4	0.459 4	0.057 4
Re-implementation of Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick: Mask R-CNN. ICCV'17

Presenting the ScanNet200 Benchmark

ScanNet200 Benchmark

ScanNet200 3D Semantic Label Benchmark

ScanNet200 3D Semantic Instance Benchmark

ScanNet Benchmark

3D Semantic Label Benchmark

3D Semantic Instance Benchmark

2D Semantic Label Benchmark

2D Semantic Instance Benchmark

Scene Type Classification Benchmark

Method	avg recall	apartment	bathroom	bedroom / hotel	bookstore / library	conference room	copy/mail room	hallway	kitchen	laundry room	living room / lounge	misc	office	storage / basement / garage

LAST-PCL-type	0.780 1	0.250 3	1.000 1	1.000 1	1.000 1	1.000 1	1.000 1	0.500 2	1.000 1	0.500 2	0.889 1	0.000 2	1.000 1	1.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang: Language-Assisted 3D Scene Understanding. arxiv23.12
multi-task	0.700 2	0.500 1	1.000 1	0.882 3	0.500 3	1.000 1	1.000 1	0.500 2	1.000 1	1.000 1	0.778 2	0.000 2	0.938 2	0.000 3
Shengyu Huang, Mikhail Usvyatsov, Konrad Schindler: Indoor Scene Recognition in 3D. IROS 2020
3DASPP-SCE	0.691 3	0.500 1	0.938 3	0.824 4	1.000 1	1.000 1	0.500 3	1.000 1	0.857 3	0.500 2	0.556 4	0.000 2	0.812 3	0.500 2

SE-ResNeXt-SSMA	0.498 4	0.000 5	0.812 4	0.941 2	0.500 3	0.500 4	0.500 3	0.500 2	0.429 5	0.500 2	0.667 3	0.500 1	0.625 4	0.000 3
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. arXiv
resnet50_scannet	0.353 5	0.250 3	0.812 4	0.529 5	0.500 3	0.500 4	0.000 5	0.500 2	0.571 4	0.000 5	0.556 4	0.000 2	0.375 5	0.000 3