Benchmark Results - ScanNet Benchmark

This table lists the benchmark results for the ScanNet200 3D semantic label scenario.

Method	avg iou	head iou	common iou	tail iou	backpack	bag	ball	bar	basket	bathroom cabinet	bathroom stall	bathroom stall door	bathroom vanity	bathtub	bed	bench	bicycle	bin	blackboard	blanket	blinds	board	book	bookshelf	bottle	bowl	box	broom	bucket	bulletin board	cabinet	calendar	candle	cart	case of water bottles	ceiling	ceiling light	chair	clock	closet	closet rod	clothes	clothes dryer	coat rack	coffee kettle	coffee maker	coffee table	column	computer tower	copier	couch	counter	cup	curtain	cushion	decoration	desk	dining table	dish rack	dishwasher	door	doorframe	dresser	dumbbell	end table	fan	file cabinet	fire alarm	fire extinguisher	floor	folded chair	hat	headphones	ironing board	jacket	keyboard	keyboard piano	kitchen cabinet	kitchen counter	ladder	lamp	laptop	laundry basket	laundry detergent	laundry hamper	ledge	light	light switch	machine	mailbox	mat	microwave	mini fridge	mirror	monitor	mouse	music stand	nightstand	object	office chair	oven	paper	paper bag	paper cutter	paper towel dispenser	paper towel roll	person	piano	picture	pillow	pipe	plant	plate	plunger	poster	power outlet	power strip	printer	projector	projector screen	rack	radiator	range hood	recycling bin	refrigerator	scale	seat	shelf	shoe	shower	shower curtain	shower curtain rod	shower floor	shower head	shower wall	sign	sink	soap dispenser	sofa chair	speaker	stair rail	stairs	stand	stool	storage bin	storage container	storage organizer	stove	structure	stuffed animal	suitcase	table	telephone	tissue box	toaster	toilet	toilet paper	toilet paper dispenser	towel	trash bin	trash can	tray	tube	tv	tv stand	vacuum cleaner	vent	wall	wardrobe	washing machine	water bottle	water cooler	water pitcher	whiteboard	window	windowsill

PonderV2 ScanNet200	0.346 5	0.552 7	0.270 8	0.175 6	0.497 8	0.070 13	0.239 7	0.000 1	0.000 4	0.000 1	0.232 15	0.412 7	0.584 3	0.842 3	0.804 5	0.212 8	0.540 9	0.000 3	0.433 15	0.106 11	0.000 9	0.590 4	0.290 10	0.548 5	0.243 6	0.000 8	0.356 10	0.000 1	0.000 3	0.062 10	0.398 11	0.441 6	0.000 1	0.104 10	0.000 2	0.888 4	0.076 10	0.682 9	0.030 3	0.094 7	0.491 10	0.351 12	0.869 9	0.000 1	0.063 1	0.403 11	0.700 2	0.000 10	0.660 12	0.881 8	0.761 4	0.050 9	0.186 8	0.852 11	0.000 1	0.007 8	0.570 7	0.100 2	0.565 2	0.326 6	0.641 11	0.431 5	0.290 13	0.621 5	0.259 5	0.408 10	0.622 10	0.125 3	0.082 10	0.950 4	0.179 5	0.000 1	0.263 3	0.424 6	0.193 9	0.558 6	0.880 2	0.545 12	0.375 7	0.727 3	0.445 9	0.499 8	0.000 4	0.000 1	0.475 7	0.002 6	0.034 6	0.083 8	0.000 5	0.924 3	0.290 4	0.636 7	0.115 13	0.400 5	0.874 4	0.186 8	0.000 1	0.611 9	0.128 3	0.113 2	0.000 4	0.000 1	0.000 8	0.584 11	0.636 10	0.103 12	0.385 9	0.843 7	0.283 4	0.603 6	0.080 7	0.825 7	0.000 6	0.377 11	0.000 1	0.000 7	0.000 4	0.457 12	0.000 3	0.000 6	0.000 1	0.574 12	0.608 8	0.481 3	0.792 4	0.394 4	0.000 1	0.357 10	0.503 11	0.261 10	0.817 11	0.504 13	0.304 7	0.472 4	0.115 9	0.000 2	0.750 7	0.677 7	0.202 2	0.000 10	0.509 8	0.729 6	0.000 1	0.519 11	0.000 14	0.000 6	0.000 1	0.620 12	0.000 2	0.000 1	0.660 6	0.560 6	0.486 5	0.384 7	0.346 8	0.952 6	0.247 13	0.667 5	0.436 11	0.269 3	0.691 6	0.000 1	0.010 7	0.787 9	0.889 3	0.880 4	0.000 1	0.810 8	0.336 4	0.860 8	0.000 1	0.606 6	0.009 8	0.248 9	0.681 7	0.392 10
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
IMFSegNet	0.337 8	0.535 11	0.266 10	0.169 8	0.527 3	0.072 11	0.147 12	0.000 1	0.000 4	0.000 1	0.341 8	0.152 15	0.544 5	0.678 15	0.803 7	0.264 3	0.868 2	0.000 3	0.853 4	0.181 5	0.040 5	0.398 10	0.357 3	0.366 16	0.208 10	0.000 8	0.317 11	0.000 1	0.000 3	0.187 6	0.418 9	0.274 8	0.000 1	0.118 4	0.000 2	0.884 5	0.095 2	0.715 2	0.000 7	0.095 6	0.592 3	0.424 5	0.472 16	0.000 1	0.000 2	0.426 10	0.564 9	0.000 10	0.692 8	0.915 5	0.759 5	0.001 16	0.170 11	0.831 12	0.000 1	0.004 10	0.493 11	0.000 7	0.492 7	0.228 12	0.675 5	0.396 12	0.382 6	0.277 16	0.311 3	0.442 9	0.551 14	0.177 2	0.066 12	0.947 6	0.126 15	0.000 1	0.051 9	0.544 4	0.263 4	0.469 13	0.786 5	0.633 7	0.311 13	0.708 4	0.422 11	0.432 13	0.000 4	0.000 1	0.497 4	0.000 8	0.038 3	0.122 5	0.000 5	0.910 8	0.251 5	0.655 6	0.211 3	0.343 11	0.840 13	0.204 6	0.000 1	0.637 5	0.112 5	0.000 11	0.000 4	0.000 1	0.000 8	0.743 4	0.660 9	0.143 5	0.359 10	0.821 10	0.264 9	0.571 9	0.054 12	0.810 8	0.000 6	0.380 10	0.000 1	0.133 4	0.094 2	0.576 9	0.667 1	0.000 6	0.000 1	0.546 14	0.572 10	0.361 9	0.699 11	0.000 9	0.000 1	0.406 6	0.524 8	0.568 1	0.829 8	0.505 12	0.196 10	0.119 7	0.263 5	0.032 1	0.755 5	0.683 5	0.036 16	0.026 7	0.634 5	0.791 5	0.000 1	0.383 14	0.109 7	0.000 6	0.000 1	0.645 8	0.000 2	0.000 1	0.469 11	0.545 8	0.373 10	0.297 9	0.447 5	0.953 5	0.300 8	0.728 3	0.509 9	0.132 15	0.642 11	0.000 1	0.031 4	0.824 4	0.769 7	0.839 9	0.000 1	0.810 8	0.000 15	0.867 4	0.000 1	0.378 11	0.004 11	0.177 15	0.644 12	0.442 7

GSTran	0.339 7	0.536 10	0.273 6	0.169 7	0.491 9	0.071 12	0.365 3	0.000 1	0.000 4	0.000 1	0.178 16	0.246 13	0.458 13	0.754 8	0.788 9	0.316 1	0.834 5	0.000 3	0.872 2	0.202 3	0.079 3	0.318 13	0.286 11	0.538 7	0.156 13	0.004 7	0.310 12	0.000 1	0.000 3	0.009 14	0.397 12	0.297 7	0.000 1	0.093 11	0.000 2	0.876 8	0.060 13	0.690 5	0.000 7	0.086 8	0.517 8	0.358 10	0.667 13	0.000 1	0.000 2	0.473 6	0.670 3	0.000 10	0.731 3	0.896 7	0.765 2	0.061 8	0.256 5	0.889 6	0.000 1	0.000 11	0.480 13	0.000 7	0.412 12	0.279 8	0.690 4	0.366 13	0.373 7	0.466 9	0.357 1	0.514 5	0.648 8	0.024 6	0.615 2	0.949 5	0.183 4	0.000 1	0.162 7	0.564 3	0.196 8	0.535 8	0.413 14	0.638 5	0.410 4	0.682 5	0.445 9	0.470 11	0.289 2	0.000 1	0.358 12	0.000 8	0.022 10	0.161 4	0.008 4	0.877 13	0.495 1	0.461 15	0.161 10	0.348 10	0.853 11	0.199 7	0.000 1	0.643 4	0.109 8	0.014 8	0.000 4	0.000 1	0.000 8	0.681 7	0.705 6	0.079 15	0.441 8	0.872 3	0.282 5	0.593 7	0.096 5	0.786 11	0.021 3	0.495 1	0.000 1	0.118 5	0.000 4	0.487 11	0.000 3	0.002 5	0.000 1	0.589 8	0.563 12	0.144 15	0.682 13	0.109 7	0.000 1	0.235 15	0.455 12	0.368 6	0.659 16	0.609 6	0.000 16	0.060 10	0.033 15	0.000 2	0.746 8	0.648 12	0.084 14	0.000 10	0.803 1	0.832 1	0.000 1	0.614 4	0.000 14	0.497 1	0.000 1	0.597 13	0.000 2	0.000 1	0.621 9	0.506 12	0.459 6	0.252 11	0.228 12	0.913 13	0.369 4	0.665 6	0.598 4	0.139 10	0.666 8	0.000 1	0.097 2	0.841 2	0.698 11	0.857 6	0.000 1	0.811 7	0.129 11	0.784 13	0.000 1	0.386 10	0.012 7	0.317 3	0.696 5	0.425 8

DITR	0.409 2	0.616 1	0.351 1	0.215 3	0.651 1	0.238 1	0.400 2	0.000 1	0.340 1	0.000 1	0.534 2	0.476 4	0.585 2	0.687 14	0.853 1	0.143 12	0.854 3	0.000 3	0.865 3	0.167 6	0.000 9	0.175 16	0.573 1	0.617 2	0.372 1	0.362 1	0.591 1	0.000 1	0.000 3	0.330 1	0.494 2	0.247 9	0.000 1	0.385 1	0.000 2	0.878 7	0.037 15	0.791 1	0.053 2	0.118 3	0.479 11	0.429 4	0.940 3	0.000 1	0.000 2	0.461 8	0.562 10	0.093 5	0.628 14	0.991 1	0.762 3	0.135 3	0.270 3	0.917 3	0.000 1	0.140 4	0.597 2	0.000 7	0.361 13	0.375 1	0.730 2	0.431 5	0.459 3	0.410 13	0.008 15	0.656 1	0.814 1	0.036 5	0.554 4	0.947 6	0.139 11	0.000 1	0.263 3	0.896 1	0.191 10	0.615 4	0.839 3	0.757 1	0.399 6	0.877 1	0.504 5	0.524 6	0.000 4	0.000 1	0.587 3	0.000 8	0.022 10	0.077 9	0.921 1	0.928 2	0.132 9	0.670 4	0.759 1	0.652 1	0.862 7	0.091 10	0.000 1	0.662 3	0.072 16	0.000 11	0.000 4	0.000 1	0.496 1	0.852 2	0.752 2	0.152 3	0.743 1	0.953 1	0.301 3	0.625 3	0.053 13	0.913 1	0.399 1	0.452 5	0.000 1	0.000 7	0.000 4	0.742 2	0.000 3	0.000 6	0.000 1	0.694 2	0.643 4	0.444 6	0.784 7	0.000 9	0.000 1	0.571 1	0.614 3	0.491 3	0.938 1	0.559 9	0.357 5	0.107 8	0.404 1	0.000 2	0.796 2	0.688 4	0.148 6	0.186 1	0.629 6	0.827 2	0.000 1	0.558 10	0.198 4	0.000 6	0.000 1	0.723 2	0.000 2	0.000 1	0.833 1	0.619 1	0.609 2	0.478 4	0.617 1	0.959 4	0.370 3	0.597 10	0.737 2	0.191 5	0.752 2	0.000 1	0.118 1	0.853 1	0.925 2	0.670 13	0.000 1	0.831 3	0.000 15	0.873 3	0.000 1	0.699 1	0.005 10	0.360 1	0.723 3	0.235 14

BFANet ScanNet200	0.360 4	0.553 6	0.293 4	0.193 4	0.483 10	0.096 5	0.266 6	0.000 1	0.000 4	0.000 1	0.298 13	0.255 11	0.661 1	0.810 5	0.810 3	0.194 9	0.785 6	0.000 3	0.000 16	0.161 7	0.000 9	0.494 6	0.382 2	0.574 4	0.258 4	0.000 8	0.372 8	0.000 1	0.000 3	0.043 12	0.436 7	0.000 10	0.000 1	0.239 2	0.000 2	0.901 3	0.105 1	0.689 6	0.025 4	0.128 2	0.614 2	0.436 1	0.493 15	0.000 1	0.000 2	0.526 4	0.546 12	0.109 4	0.651 13	0.953 4	0.753 8	0.101 6	0.143 12	0.897 4	0.000 1	0.431 1	0.469 14	0.000 7	0.522 5	0.337 5	0.661 8	0.459 2	0.409 4	0.666 4	0.102 12	0.508 6	0.757 4	0.000 8	0.060 13	0.970 3	0.497 1	0.000 1	0.376 2	0.511 5	0.262 5	0.688 2	0.921 1	0.617 9	0.321 12	0.590 6	0.491 6	0.556 3	0.000 4	0.000 1	0.481 5	0.093 1	0.043 2	0.284 2	0.000 5	0.875 14	0.135 8	0.669 5	0.124 12	0.394 6	0.849 12	0.298 2	0.000 1	0.476 16	0.088 13	0.042 5	0.000 4	0.000 1	0.254 3	0.653 10	0.741 4	0.215 1	0.573 5	0.852 6	0.266 8	0.654 1	0.056 11	0.835 3	0.000 6	0.492 2	0.000 1	0.000 7	0.000 4	0.612 8	0.000 3	0.000 6	0.000 1	0.616 5	0.469 16	0.460 4	0.698 12	0.516 2	0.000 1	0.378 8	0.563 4	0.476 4	0.863 5	0.574 8	0.330 6	0.000 11	0.282 4	0.000 2	0.760 4	0.710 2	0.233 1	0.000 10	0.641 4	0.814 3	0.000 1	0.585 8	0.053 11	0.000 6	0.000 1	0.629 10	0.000 2	0.000 1	0.678 3	0.528 11	0.534 4	0.129 13	0.596 2	0.973 3	0.264 11	0.772 2	0.526 8	0.139 10	0.707 4	0.000 1	0.000 12	0.764 13	0.591 15	0.848 7	0.000 1	0.827 4	0.338 3	0.806 12	0.000 1	0.568 7	0.151 6	0.358 2	0.659 10	0.510 4

ALS-MinkowskiNet	0.414 1	0.610 2	0.322 3	0.271 1	0.542 2	0.153 2	0.159 11	0.000 1	0.000 4	0.000 1	0.404 4	0.503 3	0.532 7	0.672 16	0.804 5	0.285 2	0.888 1	0.000 3	0.900 1	0.226 1	0.087 2	0.598 3	0.342 5	0.671 1	0.217 9	0.087 3	0.449 3	0.000 1	0.000 3	0.253 2	0.477 5	1.000 1	0.000 1	0.118 4	0.000 2	0.905 1	0.071 12	0.710 3	0.076 1	0.047 15	0.665 1	0.376 9	0.981 1	0.000 1	0.000 2	0.466 7	0.632 6	0.113 3	0.769 1	0.956 3	0.795 1	0.031 10	0.314 1	0.936 1	0.000 1	0.390 2	0.601 1	0.000 7	0.458 8	0.366 2	0.719 3	0.440 4	0.564 1	0.699 3	0.314 2	0.464 7	0.784 2	0.200 1	0.283 6	0.973 1	0.142 9	0.000 1	0.250 5	0.285 7	0.220 6	0.718 1	0.752 6	0.723 2	0.460 1	0.248 15	0.475 7	0.463 12	0.000 4	0.000 1	0.446 8	0.021 4	0.025 8	0.285 1	0.000 5	0.972 1	0.149 7	0.769 1	0.230 2	0.535 2	0.879 2	0.252 4	0.000 1	0.693 1	0.129 2	0.000 11	0.000 4	0.000 1	0.447 2	0.958 1	0.662 8	0.159 2	0.598 3	0.780 13	0.344 2	0.646 2	0.106 4	0.893 2	0.135 2	0.455 4	0.000 1	0.194 3	0.259 1	0.726 3	0.475 2	0.000 6	0.000 1	0.741 1	0.865 1	0.571 2	0.817 3	0.445 3	0.000 1	0.506 2	0.630 2	0.230 11	0.916 2	0.728 1	0.635 1	1.000 1	0.252 6	0.000 2	0.804 1	0.697 3	0.137 9	0.043 6	0.717 2	0.807 4	0.000 1	0.510 12	0.245 1	0.000 6	0.000 1	0.709 3	0.000 2	0.000 1	0.703 2	0.572 3	0.646 1	0.223 12	0.531 3	0.984 1	0.397 2	0.813 1	0.798 1	0.135 13	0.800 1	0.000 1	0.097 2	0.832 3	0.752 9	0.842 8	0.000 1	0.852 1	0.149 9	0.846 10	0.000 1	0.666 5	0.359 2	0.252 8	0.777 1	0.690 2

PTv3 ScanNet200	0.393 3	0.592 3	0.330 2	0.216 2	0.520 4	0.109 4	0.108 15	0.000 1	0.337 2	0.000 1	0.310 12	0.394 8	0.494 12	0.753 9	0.848 2	0.256 5	0.717 7	0.000 3	0.842 5	0.192 4	0.065 4	0.449 7	0.346 4	0.546 6	0.190 11	0.000 8	0.384 6	0.000 1	0.000 3	0.218 3	0.505 1	0.791 2	0.000 1	0.136 3	0.000 2	0.903 2	0.073 11	0.687 8	0.000 7	0.168 1	0.551 5	0.387 8	0.941 2	0.000 1	0.000 2	0.397 12	0.654 4	0.000 10	0.714 5	0.759 14	0.752 9	0.118 5	0.264 4	0.926 2	0.000 1	0.048 5	0.575 4	0.000 7	0.597 1	0.366 2	0.755 1	0.469 1	0.474 2	0.798 1	0.140 9	0.617 2	0.692 6	0.000 8	0.592 3	0.971 2	0.188 3	0.000 1	0.133 8	0.593 2	0.349 1	0.650 3	0.717 8	0.699 3	0.455 2	0.790 2	0.523 3	0.636 1	0.301 1	0.000 1	0.622 2	0.000 8	0.017 14	0.259 3	0.000 5	0.921 4	0.337 2	0.733 2	0.210 4	0.514 3	0.860 8	0.407 1	0.000 1	0.688 2	0.109 8	0.000 11	0.000 4	0.000 1	0.151 4	0.671 8	0.782 1	0.115 11	0.641 2	0.903 2	0.349 1	0.616 4	0.088 6	0.832 5	0.000 6	0.480 3	0.000 1	0.428 1	0.000 4	0.497 10	0.000 3	0.000 6	0.000 1	0.662 4	0.690 2	0.612 1	0.828 1	0.575 1	0.000 1	0.404 7	0.644 1	0.325 7	0.887 4	0.728 1	0.009 14	0.134 6	0.026 16	0.000 2	0.761 3	0.731 1	0.172 4	0.077 3	0.528 7	0.727 7	0.000 1	0.603 5	0.220 3	0.022 3	0.000 1	0.740 1	0.000 2	0.000 1	0.661 4	0.586 2	0.566 3	0.436 5	0.531 3	0.978 2	0.457 1	0.708 4	0.583 6	0.141 8	0.748 3	0.000 1	0.026 5	0.822 5	0.871 4	0.879 5	0.000 1	0.851 2	0.405 2	0.914 1	0.000 1	0.682 3	0.000 14	0.281 4	0.738 2	0.463 6
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
L3DETR-ScanNet_200	0.336 9	0.533 12	0.279 5	0.155 9	0.508 6	0.073 10	0.101 16	0.000 1	0.058 3	0.000 1	0.294 14	0.233 14	0.548 4	0.927 1	0.788 9	0.264 3	0.463 10	0.000 3	0.638 11	0.098 14	0.014 7	0.411 9	0.226 12	0.525 11	0.225 8	0.010 5	0.397 5	0.000 1	0.000 3	0.192 5	0.380 13	0.598 4	0.000 1	0.117 6	0.000 2	0.883 6	0.082 8	0.689 6	0.000 7	0.032 16	0.549 6	0.417 6	0.910 5	0.000 1	0.000 2	0.448 9	0.613 8	0.000 10	0.697 7	0.960 2	0.759 5	0.158 2	0.293 2	0.883 7	0.000 1	0.312 3	0.583 3	0.079 4	0.422 11	0.068 16	0.660 9	0.418 7	0.298 11	0.430 11	0.114 10	0.526 4	0.776 3	0.051 4	0.679 1	0.946 8	0.152 7	0.000 1	0.183 6	0.000 14	0.211 7	0.511 10	0.409 15	0.565 11	0.355 8	0.448 8	0.512 4	0.557 2	0.000 4	0.000 1	0.420 9	0.000 8	0.007 16	0.104 6	0.000 5	0.125 16	0.330 3	0.514 13	0.146 11	0.321 12	0.860 8	0.174 9	0.000 1	0.629 7	0.075 14	0.000 11	0.000 4	0.000 1	0.002 7	0.671 8	0.712 5	0.141 7	0.339 11	0.856 5	0.261 11	0.529 11	0.067 9	0.835 3	0.000 6	0.369 13	0.000 1	0.259 2	0.000 4	0.629 5	0.000 3	0.487 1	0.000 1	0.579 11	0.646 3	0.107 16	0.720 10	0.122 6	0.000 1	0.333 12	0.505 10	0.303 9	0.908 3	0.503 14	0.565 2	0.074 9	0.324 2	0.000 2	0.740 9	0.661 9	0.109 11	0.000 10	0.427 12	0.563 16	0.000 1	0.579 9	0.108 8	0.000 6	0.000 1	0.664 5	0.000 2	0.000 1	0.641 7	0.539 9	0.416 7	0.515 2	0.256 9	0.940 11	0.312 6	0.209 16	0.620 3	0.138 12	0.636 12	0.000 1	0.000 12	0.775 12	0.861 5	0.765 11	0.000 1	0.801 11	0.119 12	0.860 8	0.000 1	0.687 2	0.001 13	0.192 14	0.679 9	0.699 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, Jian Zhang: Language-Assisted 3D Scene Understanding. arXiv23.12
OA-CNN-L_ScanNet200	0.333 10	0.558 4	0.269 9	0.124 12	0.448 14	0.080 8	0.272 5	0.000 1	0.000 4	0.000 1	0.342 7	0.515 2	0.524 8	0.713 13	0.789 8	0.158 11	0.384 11	0.000 3	0.806 7	0.125 8	0.000 9	0.496 5	0.332 7	0.498 14	0.227 7	0.024 4	0.474 2	0.000 1	0.003 2	0.071 9	0.487 3	0.000 10	0.000 1	0.110 8	0.000 2	0.876 8	0.013 16	0.703 4	0.000 7	0.076 10	0.473 12	0.355 11	0.906 6	0.000 1	0.000 2	0.476 5	0.706 1	0.000 10	0.672 11	0.835 12	0.748 10	0.015 14	0.223 7	0.860 9	0.000 1	0.000 11	0.572 6	0.000 7	0.509 6	0.313 7	0.662 6	0.398 11	0.396 5	0.411 12	0.276 4	0.527 3	0.711 5	0.000 8	0.076 11	0.946 8	0.166 6	0.000 1	0.022 10	0.160 8	0.183 12	0.493 11	0.699 9	0.637 6	0.403 5	0.330 12	0.406 12	0.526 5	0.024 3	0.000 1	0.392 11	0.000 8	0.016 15	0.000 11	0.196 3	0.915 6	0.112 11	0.557 9	0.197 5	0.352 9	0.877 3	0.000 11	0.000 1	0.592 13	0.103 11	0.000 11	0.067 1	0.000 1	0.089 5	0.735 6	0.625 11	0.130 10	0.568 6	0.836 8	0.271 6	0.534 10	0.043 14	0.799 9	0.001 5	0.445 6	0.000 1	0.000 7	0.024 3	0.661 4	0.000 3	0.262 2	0.000 1	0.591 7	0.517 14	0.373 8	0.788 6	0.021 8	0.000 1	0.455 3	0.517 9	0.320 8	0.823 10	0.200 16	0.001 15	0.150 5	0.100 10	0.000 2	0.736 10	0.668 8	0.103 12	0.052 5	0.662 3	0.720 8	0.000 1	0.602 6	0.112 6	0.002 5	0.000 1	0.637 9	0.000 2	0.000 1	0.621 9	0.569 4	0.398 9	0.412 6	0.234 10	0.949 7	0.363 5	0.492 14	0.495 10	0.251 4	0.665 9	0.000 1	0.001 11	0.805 7	0.833 6	0.794 10	0.000 1	0.821 5	0.314 5	0.843 11	0.000 1	0.560 8	0.245 3	0.262 6	0.713 4	0.370 12

PPT-SpUNet-F.T.	0.332 11	0.556 5	0.270 7	0.123 13	0.519 5	0.091 6	0.349 4	0.000 1	0.000 4	0.000 1	0.339 9	0.383 9	0.498 11	0.833 4	0.807 4	0.241 6	0.584 8	0.000 3	0.755 8	0.124 9	0.000 9	0.608 2	0.330 8	0.530 10	0.314 2	0.000 8	0.374 7	0.000 1	0.000 3	0.197 4	0.459 6	0.000 10	0.000 1	0.117 6	0.000 2	0.876 8	0.095 2	0.682 9	0.000 7	0.086 8	0.518 7	0.433 2	0.930 4	0.000 1	0.000 2	0.563 3	0.542 13	0.077 7	0.715 4	0.858 10	0.756 7	0.008 15	0.171 10	0.874 8	0.000 1	0.039 6	0.550 8	0.000 7	0.545 4	0.256 9	0.657 10	0.453 3	0.351 9	0.449 10	0.213 6	0.392 11	0.611 11	0.000 8	0.037 14	0.946 8	0.138 12	0.000 1	0.000 12	0.063 10	0.308 2	0.537 7	0.796 4	0.673 4	0.323 11	0.392 10	0.400 13	0.509 7	0.000 4	0.000 1	0.649 1	0.000 8	0.023 9	0.000 11	0.000 5	0.914 7	0.002 15	0.506 14	0.163 9	0.359 8	0.872 5	0.000 11	0.000 1	0.623 8	0.112 5	0.001 10	0.000 4	0.000 1	0.021 6	0.753 3	0.565 15	0.150 4	0.579 4	0.806 11	0.267 7	0.616 4	0.042 15	0.783 12	0.000 6	0.374 12	0.000 1	0.000 7	0.000 4	0.620 7	0.000 3	0.000 6	0.000 1	0.572 13	0.634 5	0.350 10	0.792 4	0.000 9	0.000 1	0.376 9	0.535 6	0.378 5	0.855 6	0.672 3	0.074 11	0.000 11	0.185 8	0.000 2	0.727 11	0.660 10	0.076 15	0.000 10	0.432 11	0.646 10	0.000 1	0.594 7	0.006 13	0.000 6	0.000 1	0.658 6	0.000 2	0.000 1	0.661 4	0.549 7	0.300 13	0.291 10	0.045 13	0.942 10	0.304 7	0.600 9	0.572 7	0.135 13	0.695 5	0.000 1	0.008 9	0.793 8	0.942 1	0.899 2	0.000 1	0.816 6	0.181 7	0.897 2	0.000 1	0.679 4	0.223 4	0.264 5	0.691 6	0.345 13
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer ScanNet200	0.326 12	0.539 9	0.265 11	0.131 11	0.499 7	0.110 3	0.522 1	0.000 1	0.000 4	0.000 1	0.318 11	0.427 6	0.455 14	0.743 11	0.765 12	0.175 10	0.842 4	0.000 3	0.828 6	0.204 2	0.033 6	0.429 8	0.335 6	0.601 3	0.312 3	0.000 8	0.357 9	0.000 1	0.000 3	0.047 11	0.423 8	0.000 10	0.000 1	0.105 9	0.000 2	0.873 11	0.079 9	0.670 12	0.000 7	0.117 4	0.471 13	0.432 3	0.829 10	0.000 1	0.000 2	0.584 2	0.417 16	0.089 6	0.684 10	0.837 11	0.705 15	0.021 13	0.178 9	0.892 5	0.000 1	0.028 7	0.505 10	0.000 7	0.457 9	0.200 13	0.662 6	0.412 9	0.244 14	0.496 7	0.000 16	0.451 8	0.626 9	0.000 8	0.102 9	0.943 11	0.138 12	0.000 1	0.000 12	0.149 9	0.291 3	0.534 9	0.722 7	0.632 8	0.331 10	0.253 14	0.453 8	0.487 9	0.000 4	0.000 1	0.479 6	0.000 8	0.022 10	0.000 11	0.000 5	0.900 9	0.128 10	0.684 3	0.164 8	0.413 4	0.854 10	0.000 11	0.000 1	0.512 15	0.074 15	0.003 9	0.000 4	0.000 1	0.000 8	0.469 14	0.613 12	0.132 9	0.529 7	0.871 4	0.227 15	0.582 8	0.026 16	0.787 10	0.000 6	0.339 14	0.000 1	0.000 7	0.000 4	0.626 6	0.000 3	0.029 4	0.000 1	0.587 9	0.612 7	0.411 7	0.724 9	0.000 9	0.000 1	0.407 5	0.552 5	0.513 2	0.849 7	0.655 4	0.408 3	0.000 11	0.296 3	0.000 2	0.686 14	0.645 13	0.145 7	0.022 8	0.414 13	0.633 11	0.000 1	0.637 1	0.224 2	0.000 6	0.000 1	0.650 7	0.000 2	0.000 1	0.622 8	0.535 10	0.343 11	0.483 3	0.230 11	0.943 9	0.289 9	0.618 8	0.596 5	0.140 9	0.679 7	0.000 1	0.022 6	0.783 10	0.620 13	0.906 1	0.000 1	0.806 10	0.137 10	0.865 5	0.000 1	0.378 11	0.000 14	0.168 16	0.680 8	0.227 15
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
CeCo	0.340 6	0.551 8	0.247 12	0.181 5	0.475 12	0.057 16	0.142 13	0.000 1	0.000 4	0.000 1	0.387 5	0.463 5	0.499 10	0.924 2	0.774 11	0.213 7	0.257 12	0.000 3	0.546 14	0.100 12	0.006 8	0.615 1	0.177 16	0.534 8	0.246 5	0.000 8	0.400 4	0.000 1	0.338 1	0.006 15	0.484 4	0.609 3	0.000 1	0.083 12	0.000 2	0.873 11	0.089 6	0.661 13	0.000 7	0.048 14	0.560 4	0.408 7	0.892 7	0.000 1	0.000 2	0.586 1	0.616 7	0.000 10	0.692 8	0.900 6	0.721 11	0.162 1	0.228 6	0.860 9	0.000 1	0.000 11	0.575 4	0.083 3	0.550 3	0.347 4	0.624 12	0.410 10	0.360 8	0.740 2	0.109 11	0.321 14	0.660 7	0.000 8	0.121 7	0.939 12	0.143 8	0.000 1	0.400 1	0.003 12	0.190 11	0.564 5	0.652 10	0.615 10	0.421 3	0.304 13	0.579 1	0.547 4	0.000 4	0.000 1	0.296 13	0.000 8	0.030 7	0.096 7	0.000 5	0.916 5	0.037 12	0.551 10	0.171 7	0.376 7	0.865 6	0.286 3	0.000 1	0.633 6	0.102 12	0.027 6	0.011 3	0.000 1	0.000 8	0.474 13	0.742 3	0.133 8	0.311 12	0.824 9	0.242 12	0.503 13	0.068 8	0.828 6	0.000 6	0.429 7	0.000 1	0.063 6	0.000 4	0.781 1	0.000 3	0.000 6	0.000 1	0.665 3	0.633 6	0.450 5	0.818 2	0.000 9	0.000 1	0.429 4	0.532 7	0.226 12	0.825 9	0.510 11	0.377 4	0.709 2	0.079 12	0.000 2	0.753 6	0.683 5	0.102 13	0.063 4	0.401 15	0.620 13	0.000 1	0.619 2	0.000 14	0.000 6	0.000 1	0.595 14	0.000 2	0.000 1	0.345 13	0.564 5	0.411 8	0.603 1	0.384 7	0.945 8	0.266 10	0.643 7	0.367 13	0.304 1	0.663 10	0.000 1	0.010 7	0.726 14	0.767 8	0.898 3	0.000 1	0.784 12	0.435 1	0.861 7	0.000 1	0.447 9	0.000 14	0.257 7	0.656 11	0.377 11
Zhisheng Zhong, Jiequan Cui, Yibo Yang, Xiaoyang Wu, Xiaojuan Qi, Xiangyu Zhang, Jiaya Jia: Understanding Imbalanced Semantic Segmentation Through Neural Collapse. CVPR 2023
AWCS	0.305 13	0.508 13	0.225 13	0.142 10	0.463 13	0.063 14	0.195 9	0.000 1	0.000 4	0.000 1	0.467 3	0.551 1	0.504 9	0.773 6	0.764 13	0.142 13	0.029 16	0.000 3	0.626 12	0.100 12	0.000 9	0.360 11	0.179 14	0.507 13	0.137 14	0.006 6	0.300 13	0.000 1	0.000 3	0.172 8	0.364 14	0.512 5	0.000 1	0.056 13	0.000 2	0.865 13	0.093 5	0.634 16	0.000 7	0.071 12	0.396 14	0.296 15	0.876 8	0.000 1	0.000 2	0.373 13	0.436 15	0.063 9	0.749 2	0.877 9	0.721 11	0.131 4	0.124 13	0.804 14	0.000 1	0.000 11	0.515 9	0.010 6	0.452 10	0.252 10	0.578 13	0.417 8	0.179 16	0.484 8	0.171 7	0.337 13	0.606 12	0.000 8	0.115 8	0.937 13	0.142 9	0.000 1	0.008 11	0.000 14	0.157 15	0.484 12	0.402 16	0.501 14	0.339 9	0.553 7	0.529 2	0.478 10	0.000 4	0.000 1	0.404 10	0.001 7	0.022 10	0.077 9	0.000 5	0.894 11	0.219 6	0.628 8	0.093 14	0.305 13	0.886 1	0.233 5	0.000 1	0.603 10	0.112 5	0.023 7	0.000 4	0.000 1	0.000 8	0.741 5	0.664 7	0.097 13	0.253 13	0.782 12	0.264 9	0.523 12	0.154 1	0.707 15	0.000 6	0.411 8	0.000 1	0.000 7	0.000 4	0.332 15	0.000 3	0.000 6	0.000 1	0.602 6	0.595 9	0.185 13	0.656 15	0.159 5	0.000 1	0.355 11	0.424 14	0.154 14	0.729 13	0.516 10	0.220 9	0.620 3	0.084 11	0.000 2	0.707 13	0.651 11	0.173 3	0.014 9	0.381 16	0.582 14	0.000 1	0.619 2	0.049 12	0.000 6	0.000 1	0.702 4	0.000 2	0.000 1	0.302 15	0.489 14	0.317 12	0.334 8	0.392 6	0.922 12	0.254 12	0.533 13	0.394 12	0.129 16	0.613 14	0.000 1	0.000 12	0.820 6	0.649 12	0.749 12	0.000 1	0.782 13	0.282 6	0.863 6	0.000 1	0.288 15	0.006 9	0.220 11	0.633 13	0.542 3

LGround	0.272 14	0.485 14	0.184 14	0.106 14	0.476 11	0.077 9	0.218 8	0.000 1	0.000 4	0.000 1	0.547 1	0.295 10	0.540 6	0.746 10	0.745 14	0.058 15	0.112 15	0.005 1	0.658 10	0.077 16	0.000 9	0.322 12	0.178 15	0.512 12	0.190 11	0.199 2	0.277 14	0.000 1	0.000 3	0.173 7	0.399 10	0.000 10	0.000 1	0.039 15	0.000 2	0.858 14	0.085 7	0.676 11	0.002 5	0.103 5	0.498 9	0.323 13	0.703 11	0.000 1	0.000 2	0.296 14	0.549 11	0.216 1	0.702 6	0.768 13	0.718 13	0.028 11	0.092 15	0.786 15	0.000 1	0.000 11	0.453 15	0.022 5	0.251 16	0.252 10	0.572 14	0.348 14	0.321 10	0.514 6	0.063 13	0.279 15	0.552 13	0.000 8	0.019 15	0.932 14	0.132 14	0.000 1	0.000 12	0.000 14	0.156 16	0.457 14	0.623 11	0.518 13	0.265 15	0.358 11	0.381 14	0.395 14	0.000 4	0.000 1	0.127 16	0.012 5	0.051 1	0.000 11	0.000 5	0.886 12	0.014 13	0.437 16	0.179 6	0.244 14	0.826 14	0.000 11	0.000 1	0.599 11	0.136 1	0.085 3	0.000 4	0.000 1	0.000 8	0.565 12	0.612 13	0.143 5	0.207 14	0.566 14	0.232 14	0.446 14	0.127 2	0.708 14	0.000 6	0.384 9	0.000 1	0.000 7	0.000 4	0.402 13	0.000 3	0.059 3	0.000 1	0.525 16	0.566 11	0.229 12	0.659 14	0.000 9	0.000 1	0.265 13	0.446 13	0.147 15	0.720 15	0.597 7	0.066 12	0.000 11	0.187 7	0.000 2	0.726 12	0.467 16	0.134 10	0.000 10	0.413 14	0.629 12	0.000 1	0.363 15	0.055 10	0.022 3	0.000 1	0.626 11	0.000 2	0.000 1	0.323 14	0.479 16	0.154 15	0.117 14	0.028 15	0.901 14	0.243 14	0.415 15	0.295 16	0.143 7	0.610 15	0.000 1	0.000 12	0.777 11	0.397 16	0.324 15	0.000 1	0.778 14	0.179 8	0.702 15	0.000 1	0.274 16	0.404 1	0.233 10	0.622 14	0.398 9
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild. arXiv
CSC-Pretrain	0.249 16	0.455 16	0.171 15	0.079 16	0.418 15	0.059 15	0.186 10	0.000 1	0.000 4	0.000 1	0.335 10	0.250 12	0.316 15	0.766 7	0.697 16	0.142 13	0.170 13	0.003 2	0.553 13	0.112 10	0.097 1	0.201 15	0.186 13	0.476 15	0.081 15	0.000 8	0.216 16	0.000 1	0.000 3	0.001 16	0.314 16	0.000 10	0.000 1	0.055 14	0.000 2	0.832 16	0.094 4	0.659 14	0.002 5	0.076 10	0.310 16	0.293 16	0.664 14	0.000 1	0.000 2	0.175 16	0.634 5	0.130 2	0.552 16	0.686 16	0.700 16	0.076 7	0.110 14	0.770 16	0.000 1	0.000 11	0.430 16	0.000 7	0.319 14	0.166 14	0.542 16	0.327 15	0.205 15	0.332 14	0.052 14	0.375 12	0.444 16	0.000 8	0.012 16	0.930 16	0.203 2	0.000 1	0.000 12	0.046 11	0.175 13	0.413 15	0.592 12	0.471 15	0.299 14	0.152 16	0.340 15	0.247 16	0.000 4	0.000 1	0.225 14	0.058 3	0.037 4	0.000 11	0.207 2	0.862 15	0.014 13	0.548 11	0.033 15	0.233 15	0.816 15	0.000 11	0.000 1	0.542 14	0.123 4	0.121 1	0.019 2	0.000 1	0.000 8	0.463 15	0.454 16	0.045 16	0.128 16	0.557 15	0.235 13	0.441 15	0.063 10	0.484 16	0.000 6	0.308 16	0.000 1	0.000 7	0.000 4	0.318 16	0.000 3	0.000 6	0.000 1	0.545 15	0.543 13	0.164 14	0.734 8	0.000 9	0.000 1	0.215 16	0.371 15	0.198 13	0.743 12	0.205 15	0.062 13	0.000 11	0.079 12	0.000 2	0.683 15	0.547 15	0.142 8	0.000 10	0.441 10	0.579 15	0.000 1	0.464 13	0.098 9	0.041 2	0.000 1	0.590 15	0.000 2	0.000 1	0.373 12	0.494 13	0.174 14	0.105 15	0.001 16	0.895 15	0.222 15	0.537 12	0.307 15	0.180 6	0.625 13	0.000 1	0.000 12	0.591 16	0.609 14	0.398 14	0.000 1	0.766 16	0.014 14	0.638 16	0.000 1	0.377 13	0.004 11	0.206 13	0.609 16	0.465 5
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
Minkowski 34D	0.253 15	0.463 15	0.154 16	0.102 15	0.381 16	0.084 7	0.134 14	0.000 1	0.000 4	0.000 1	0.386 6	0.141 16	0.279 16	0.737 12	0.703 15	0.014 16	0.164 14	0.000 3	0.663 9	0.092 15	0.000 9	0.224 14	0.291 9	0.531 9	0.056 16	0.000 8	0.242 15	0.000 1	0.000 3	0.013 13	0.331 15	0.000 10	0.000 1	0.035 16	0.001 1	0.858 14	0.059 14	0.650 15	0.000 7	0.056 13	0.353 15	0.299 14	0.670 12	0.000 1	0.000 2	0.284 15	0.484 14	0.071 8	0.594 15	0.720 15	0.710 14	0.027 12	0.068 16	0.813 13	0.000 1	0.005 9	0.492 12	0.164 1	0.274 15	0.111 15	0.571 15	0.307 16	0.293 12	0.307 15	0.150 8	0.163 16	0.531 15	0.002 7	0.545 5	0.932 14	0.093 16	0.000 1	0.000 12	0.002 13	0.159 14	0.368 16	0.581 13	0.440 16	0.228 16	0.406 9	0.282 16	0.294 15	0.000 4	0.000 1	0.189 15	0.060 2	0.036 5	0.000 11	0.000 5	0.897 10	0.000 16	0.525 12	0.025 16	0.205 16	0.771 16	0.000 11	0.000 1	0.593 12	0.108 10	0.044 4	0.000 4	0.000 1	0.000 8	0.282 16	0.589 14	0.094 14	0.169 15	0.466 16	0.227 15	0.419 16	0.125 3	0.757 13	0.002 4	0.334 15	0.000 1	0.000 7	0.000 4	0.357 14	0.000 3	0.000 6	0.000 1	0.582 10	0.513 15	0.337 11	0.612 16	0.000 9	0.000 1	0.250 14	0.352 16	0.136 16	0.724 14	0.655 4	0.280 8	0.000 11	0.046 14	0.000 2	0.606 16	0.559 14	0.159 5	0.102 2	0.445 9	0.655 9	0.000 1	0.310 16	0.117 5	0.000 6	0.000 1	0.581 16	0.026 1	0.000 1	0.265 16	0.483 15	0.084 16	0.097 16	0.044 14	0.865 16	0.142 16	0.588 11	0.351 14	0.272 2	0.596 16	0.000 1	0.003 10	0.622 15	0.720 10	0.096 16	0.000 1	0.771 15	0.016 13	0.772 14	0.000 1	0.302 14	0.194 5	0.214 12	0.621 15	0.197 16
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019

This table lists the benchmark results for the ScanNet200 3D semantic instance scenario.

Method	avg ap	head ap	common ap	tail ap	backpack	bag	ball	bar	basket	bathroom cabinet	bathroom stall	bathroom stall door	bathroom vanity	bathtub	bed	bench	bicycle	bin	blackboard	blanket	blinds	board	book	bookshelf	bottle	bowl	box	broom	bucket	bulletin board	cabinet	calendar	candle	cart	case of water bottles	ceiling	ceiling light	chair	clock	closet	closet rod	clothes	clothes dryer	coat rack	coffee kettle	coffee maker	coffee table	column	computer tower	copier	couch	counter	cup	curtain	cushion	decoration	desk	dining table	dish rack	dishwasher	door	doorframe	dresser	dumbbell	end table	fan	file cabinet	fire alarm	fire extinguisher	folded chair	hat	headphones	ironing board	jacket	keyboard	keyboard piano	kitchen cabinet	kitchen counter	ladder	lamp	laptop	laundry basket	laundry detergent	laundry hamper	ledge	light	light switch	machine	mailbox	mat	microwave	mini fridge	mirror	monitor	mouse	music stand	nightstand	object	office chair	oven	paper	paper bag	paper cutter	paper towel dispenser	paper towel roll	person	piano	picture	pillow	pipe	plant	plate	plunger	poster	power outlet	power strip	printer	projector	projector screen	rack	radiator	range hood	recycling bin	refrigerator	scale	seat	shelf	shoe	shower	shower curtain	shower curtain rod	shower floor	shower head	shower wall	sign	sink	soap dispenser	sofa chair	speaker	stair rail	stairs	stand	stool	storage bin	storage container	storage organizer	stove	structure	stuffed animal	suitcase	table	telephone	tissue box	toaster	toilet	toilet paper	toilet paper dispenser	towel	trash bin	trash can	tray	tube	tv	tv stand	vacuum cleaner	vent	wardrobe	washing machine	water bottle	water cooler	water pitcher	whiteboard	window	windowsill

TD3D Scannet200	0.211 2	0.332 2	0.177 2	0.103 2	0.337 2	0.036 2	0.222 4	0.000 1	0.000 1	0.000 1	0.031 1	0.342 1	0.093 4	0.852 1	0.452 4	0.559 2	0.000 2	0.004 2	0.000 3	0.039 1	0.000 2	0.309 2	0.047 4	0.380 2	0.028 2	0.000 1	0.080 2	0.000 1	0.000 2	0.147 1	0.192 3	0.000 2	0.000 1	0.083 1	0.000 1	0.395 2	0.039 4	0.662 1	0.000 1	0.000 2	0.074 1	0.135 1	0.296 2	0.000 2	0.000 1	0.231 5	0.646 1	0.139 3	0.633 3	1.000 1	0.705 1	0.048 1	0.088 2	0.439 2	0.184 2	0.039 2	0.266 2	0.551 2	0.260 3	0.026 5	0.463 2	0.046 3	0.252 2	0.249 3	0.083 2	0.372 1	0.411 1	0.000 2	0.414 1	0.323 1	0.000 1	0.052 2	0.000 1	0.157 1	0.278 2	0.278 2	0.237 2	0.015 2	0.321 2	0.253 1	0.060 4	0.000 1	0.000 1	0.272 2	0.008 1	0.169 2	0.032 2	0.000 1	0.404 1	0.356 2	0.283 2	0.073 3	0.028 5	0.617 2	0.038 2	0.000 1	0.494 2	0.037 2	0.215 1	0.083 2	0.000 2	0.003 2	0.486 3	0.694 1	0.000 2	0.040 4	0.083 4	0.219 5	0.209 2	0.007 1	0.483 1	0.000 2	0.125 4	0.000 1	0.150 2	0.014 1	0.544 1	0.000 1	0.000 2	0.000 1	0.260 5	0.143 5	0.200 1	0.610 3	0.028 2	0.032 1	0.145 1	0.059 2	0.046 4	0.740 2	0.806 1	0.543 2	0.000 2	0.108 2	0.008 1	0.222 5	0.669 2	0.456 1	0.074 1	0.224 1	0.586 1	0.006 2	0.451 2	0.000 1	0.002 1	0.889 1	0.282 2	0.000 1	0.000 1	0.252 2	0.413 2	0.111 2	0.074 2	0.240 1	0.893 1	0.266 2	0.144 3	0.293 2	0.281 2	0.604 2	0.000 1	0.000 2	0.379 5	0.963 1	0.250 4	0.000 1	0.160 1	0.420 2	0.000 1	0.343 3	0.207 2	0.079 5	0.315 2	0.052 2
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
Mask3D Scannet200	0.278 1	0.383 1	0.263 1	0.168 1	0.506 1	0.068 1	0.083 5	0.000 1	0.000 1	0.000 1	0.023 2	0.149 4	0.302 1	0.778 3	0.647 1	0.569 1	0.500 1	0.031 1	0.014 2	0.027 2	0.173 1	0.311 1	0.195 1	0.351 3	0.258 1	0.000 1	0.082 1	0.000 1	0.003 1	0.037 2	0.391 1	1.000 1	0.000 1	0.014 2	0.000 1	0.572 1	0.573 1	0.661 2	0.000 1	0.003 1	0.005 4	0.082 4	0.349 1	0.028 1	0.000 1	0.605 1	0.515 3	0.509 1	0.711 1	1.000 1	0.665 3	0.015 2	0.107 1	0.402 4	0.201 1	0.083 1	0.304 1	0.759 1	0.491 1	0.378 1	0.572 1	0.119 1	0.277 1	0.013 5	0.089 1	0.283 2	0.411 2	0.267 1	0.006 3	0.156 2	0.000 1	0.116 1	0.000 1	0.105 3	0.556 1	0.514 1	0.396 1	0.275 1	0.323 1	0.215 2	0.380 1	0.000 1	0.000 1	0.356 1	0.005 2	0.208 1	0.325 1	0.000 1	0.050 4	0.400 1	0.561 1	0.258 1	0.179 1	0.722 1	0.147 1	0.000 1	0.586 1	0.063 1	0.015 2	0.139 1	0.016 1	0.028 1	0.708 1	0.418 2	0.016 1	0.048 3	0.500 1	0.489 1	0.349 1	0.001 2	0.475 2	0.086 1	0.365 1	0.000 1	0.500 1	0.000 2	0.323 3	0.000 1	0.222 1	0.000 1	0.497 1	0.626 1	0.044 3	0.795 1	0.556 1	0.008 2	0.121 4	0.265 1	0.667 1	0.789 1	0.568 2	0.579 1	0.444 1	0.176 1	0.004 2	0.474 1	0.752 1	0.233 2	0.014 2	0.002 4	0.570 2	0.007 1	0.377 5	0.000 1	0.000 2	0.000 2	0.337 1	0.000 1	0.000 1	0.384 1	0.465 1	0.287 1	0.085 1	0.048 2	0.816 5	0.467 1	0.810 1	0.377 1	0.415 1	0.744 1	0.000 1	0.004 1	0.724 1	0.778 2	0.590 1	0.000 1	0.032 2	0.441 1	0.000 1	0.377 2	0.391 1	0.427 1	0.321 1	0.192 1
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
Minkowski 34D Inst.	0.130 4	0.246 4	0.083 4	0.043 5	0.299 4	0.000 5	0.278 1	0.000 1	0.000 1	0.000 1	0.022 3	0.175 3	0.122 2	0.537 4	0.521 2	0.400 3	0.000 2	0.000 3	0.000 3	0.008 3	0.000 2	0.048 4	0.076 3	0.182 5	0.000 4	0.000 1	0.022 4	0.000 1	0.000 2	0.000 3	0.141 5	0.000 2	0.000 1	0.000 3	0.000 1	0.210 4	0.063 2	0.547 5	0.000 1	0.000 2	0.000 5	0.100 2	0.026 5	0.000 2	0.000 1	0.241 4	0.488 4	0.000 4	0.564 5	1.000 1	0.672 2	0.000 3	0.021 4	0.486 1	0.000 3	0.000 3	0.067 4	0.000 3	0.194 5	0.033 4	0.415 4	0.026 4	0.025 5	0.271 1	0.004 4	0.094 5	0.142 5	0.000 2	0.000 4	0.111 3	0.000 1	0.000 3	0.000 1	0.088 4	0.083 5	0.278 2	0.110 4	0.000 4	0.082 5	0.199 5	0.137 3	0.000 1	0.000 1	0.000 3	0.000 3	0.041 4	0.000 3	0.000 1	0.308 2	0.067 3	0.280 3	0.016 4	0.101 3	0.373 5	0.000 3	0.000 1	0.319 4	0.007 4	0.000 3	0.000 3	0.000 2	0.000 3	0.028 5	0.355 5	0.000 2	0.101 1	0.444 2	0.289 2	0.114 5	0.000 3	0.394 3	0.000 2	0.032 5	0.000 1	0.000 3	0.000 2	0.201 5	0.000 1	0.000 2	0.000 1	0.384 2	0.248 4	0.000 5	0.529 4	0.000 3	0.000 3	0.133 3	0.020 5	0.089 3	0.720 3	0.500 4	0.099 4	0.000 2	0.000 5	0.000 3	0.238 4	0.334 5	0.190 3	0.000 3	0.000 5	0.317 5	0.000 3	0.472 1	0.000 1	0.000 2	0.000 2	0.094 5	0.000 1	0.000 1	0.082 5	0.236 4	0.004 5	0.019 4	0.000 3	0.883 2	0.061 5	0.262 2	0.217 4	0.000 4	0.557 5	0.000 1	0.000 2	0.460 4	0.761 4	0.156 5	0.000 1	0.000 3	0.259 4	0.000 1	0.394 1	0.019 4	0.084 4	0.232 4	0.000 5
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
CSC-Pretrain Inst.	0.123 5	0.223 5	0.082 5	0.046 4	0.308 3	0.004 3	0.278 1	0.000 1	0.000 1	0.000 1	0.000 5	0.032 5	0.105 3	0.537 4	0.348 5	0.378 4	0.000 2	0.000 3	0.000 3	0.000 5	0.000 2	0.000 5	0.037 5	0.323 4	0.000 4	0.000 1	0.013 5	0.000 1	0.000 2	0.000 3	0.235 2	0.000 2	0.000 1	0.000 3	0.000 1	0.231 3	0.045 3	0.564 4	0.000 1	0.000 2	0.006 3	0.078 5	0.065 3	0.000 2	0.000 1	0.259 3	0.516 2	0.000 4	0.600 4	1.000 1	0.578 5	0.000 3	0.000 5	0.184 5	0.000 3	0.000 3	0.034 5	0.000 3	0.211 4	0.089 3	0.394 5	0.018 5	0.064 4	0.171 4	0.001 5	0.144 3	0.172 4	0.000 2	0.000 4	0.044 4	0.000 1	0.000 3	0.000 1	0.064 5	0.126 4	0.278 2	0.093 5	0.000 4	0.094 4	0.214 3	0.011 5	0.000 1	0.000 1	0.000 3	0.000 3	0.022 5	0.000 3	0.000 1	0.275 3	0.000 4	0.275 4	0.000 5	0.098 4	0.407 4	0.000 3	0.000 1	0.250 5	0.007 5	0.000 3	0.000 3	0.000 2	0.000 3	0.333 4	0.376 4	0.000 2	0.000 5	0.042 5	0.285 3	0.119 4	0.000 3	0.224 5	0.000 2	0.184 3	0.000 1	0.000 3	0.000 2	0.244 4	0.000 1	0.000 2	0.000 1	0.377 3	0.378 2	0.051 2	0.424 5	0.000 3	0.000 3	0.116 5	0.030 4	0.125 2	0.441 4	0.444 5	0.063 5	0.000 2	0.042 3	0.000 3	0.297 2	0.483 3	0.096 5	0.000 3	0.028 2	0.338 4	0.000 3	0.444 3	0.000 1	0.000 2	0.000 2	0.189 4	0.000 1	0.000 1	0.141 4	0.152 5	0.017 4	0.000 5	0.000 3	0.838 4	0.193 3	0.111 5	0.105 5	0.198 3	0.588 3	0.000 1	0.000 2	0.542 3	0.343 5	0.267 3	0.000 1	0.000 3	0.108 5	0.000 1	0.333 4	0.000 5	0.228 2	0.202 5	0.022 4
Ji Hou, Benjamin Graham, Matthias Nießner, Saining Xie: Exploring Data-Efficient 3D Scene Understanding with Contrastive Scene Contexts. CVPR 2021
LGround Inst.	0.154 3	0.275 3	0.108 3	0.060 3	0.295 5	0.002 4	0.278 1	0.000 1	0.000 1	0.000 1	0.006 4	0.272 2	0.064 5	0.815 2	0.503 3	0.333 5	0.000 2	0.000 3	0.556 1	0.001 4	0.000 2	0.148 3	0.078 2	0.448 1	0.007 3	0.000 1	0.024 3	0.000 1	0.000 2	0.000 3	0.190 4	0.000 2	0.000 1	0.000 3	0.000 1	0.209 5	0.031 5	0.573 3	0.000 1	0.000 2	0.041 2	0.099 3	0.037 4	0.000 2	0.000 1	0.327 2	0.364 5	0.181 2	0.642 2	1.000 1	0.654 4	0.000 3	0.023 3	0.429 3	0.000 3	0.000 3	0.097 3	0.000 3	0.278 2	0.267 2	0.434 3	0.048 2	0.092 3	0.257 2	0.030 3	0.097 4	0.189 3	0.000 2	0.089 2	0.000 5	0.000 1	0.000 3	0.000 1	0.115 2	0.166 3	0.222 5	0.222 3	0.003 3	0.127 3	0.213 4	0.169 2	0.000 1	0.000 1	0.000 3	0.000 3	0.044 3	0.000 3	0.000 1	0.000 5	0.000 4	0.268 5	0.222 2	0.130 2	0.494 3	0.000 3	0.000 1	0.363 3	0.015 3	0.000 3	0.000 3	0.000 2	0.000 3	0.611 2	0.400 3	0.000 2	0.056 2	0.278 3	0.242 4	0.180 3	0.000 3	0.383 4	0.000 2	0.209 2	0.000 1	0.000 3	0.000 2	0.364 2	0.000 1	0.000 2	0.000 1	0.323 4	0.302 3	0.019 4	0.654 2	0.000 3	0.000 3	0.141 2	0.045 3	0.000 5	0.427 5	0.514 3	0.143 3	0.000 2	0.028 4	0.000 3	0.252 3	0.402 4	0.156 4	0.000 3	0.028 2	0.470 3	0.000 3	0.444 3	0.000 1	0.000 2	0.000 2	0.205 3	0.000 1	0.000 1	0.203 3	0.381 3	0.026 3	0.037 3	0.000 3	0.881 3	0.099 4	0.135 4	0.239 3	0.000 4	0.585 4	0.000 1	0.000 2	0.616 2	0.778 2	0.322 2	0.000 1	0.000 3	0.407 3	0.000 1	0.333 4	0.148 3	0.177 3	0.242 3	0.028 3
David Rozenberszki, Or Litany, Angela Dai: Language-Grounded Indoor 3D Semantic Segmentation in the Wild.

ScanNet Benchmark

This table lists the benchmark results for the 3D semantic label scenario.

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

PTv3-PPT-ALC	0.798 1	0.911 10	0.812 21	0.854 7	0.770 12	0.856 14	0.555 15	0.943 1	0.660 24	0.735 2	0.979 1	0.606 7	0.492 1	0.792 4	0.934 3	0.841 2	0.819 5	0.716 8	0.947 10	0.906 1	0.822 1

PTv3 ScanNet	0.794 2	0.941 3	0.813 20	0.851 9	0.782 6	0.890 3	0.597 1	0.916 5	0.696 9	0.713 5	0.979 1	0.635 2	0.384 3	0.793 3	0.907 10	0.821 5	0.790 33	0.696 13	0.967 3	0.903 2	0.805 2
Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao: Point Transformer V3: Simpler, Faster, Stronger. CVPR 2024 (Oral)
DITR ScanNet	0.793 3	0.811 39	0.852 2	0.889 1	0.774 9	0.907 1	0.592 2	0.927 3	0.719 1	0.718 3	0.961 17	0.652 1	0.348 12	0.817 1	0.927 5	0.795 9	0.824 2	0.749 1	0.948 9	0.887 7	0.771 11

PonderV2	0.785 4	0.978 1	0.800 29	0.833 26	0.788 4	0.853 19	0.545 19	0.910 8	0.713 2	0.705 6	0.979 1	0.596 9	0.390 2	0.769 15	0.832 44	0.821 5	0.792 32	0.730 2	0.975 1	0.897 5	0.785 6
Haoyi Zhu, Honghui Yang, Xiaoyang Wu, Di Huang, Sha Zhang, Xianglong He, Tong He, Hengshuang Zhao, Chunhua Shen, Yu Qiao, Wanli Ouyang: PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm.
Mix3D	0.781 5	0.964 2	0.855 1	0.843 18	0.781 7	0.858 13	0.575 7	0.831 36	0.685 15	0.714 4	0.979 1	0.594 10	0.310 29	0.801 2	0.892 18	0.841 2	0.819 5	0.723 5	0.940 15	0.887 7	0.725 27
Alexey Nekrasov, Jonas Schult, Or Litany, Bastian Leibe, Francis Engelmann: Mix3D: Out-of-Context Data Augmentation for 3D Scenes. 3DV 2021 (Oral)
Swin3D	0.779 6	0.861 21	0.818 15	0.836 23	0.790 3	0.875 5	0.576 6	0.905 9	0.704 6	0.739 1	0.969 11	0.611 3	0.349 11	0.756 25	0.958 1	0.702 48	0.805 16	0.708 9	0.916 35	0.898 4	0.801 3

TTT-KD	0.773 7	0.646 94	0.818 15	0.809 38	0.774 9	0.878 4	0.581 3	0.943 1	0.687 13	0.704 7	0.978 5	0.607 6	0.336 18	0.775 11	0.912 8	0.838 4	0.823 3	0.694 14	0.967 3	0.899 3	0.794 5
Lisa Weijler, Muhammad Jehanzeb Mirza, Leon Sick, Can Ekkazan, Pedro Hermosilla: TTT-KD: Test-Time Training for 3D Semantic Segmentation through Knowledge Distillation from Foundation Models.
ResLFE_HDS	0.772 8	0.939 4	0.824 7	0.854 7	0.771 11	0.840 33	0.564 11	0.900 11	0.686 14	0.677 14	0.961 17	0.537 34	0.348 12	0.769 15	0.903 12	0.785 13	0.815 8	0.676 25	0.939 16	0.880 13	0.772 10

PPT-SpUNet-Joint	0.766 9	0.932 5	0.794 35	0.829 28	0.751 25	0.854 17	0.540 23	0.903 10	0.630 37	0.672 17	0.963 15	0.565 24	0.357 9	0.788 5	0.900 14	0.737 28	0.802 17	0.685 19	0.950 7	0.887 7	0.780 7
Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao: Towards Large-scale 3D Representation Learning with Multi-dataset Point Prompt Training. CVPR 2024
OctFormer	0.766 9	0.925 7	0.808 25	0.849 11	0.786 5	0.846 29	0.566 10	0.876 18	0.690 11	0.674 16	0.960 19	0.576 20	0.226 70	0.753 27	0.904 11	0.777 15	0.815 8	0.722 6	0.923 30	0.877 16	0.776 9
Peng-Shuai Wang: OctFormer: Octree-based Transformers for 3D Point Clouds. SIGGRAPH 2023
CU-Hybrid Net	0.764 11	0.924 8	0.819 13	0.840 20	0.757 20	0.853 19	0.580 4	0.848 29	0.709 4	0.643 27	0.958 23	0.587 15	0.295 36	0.753 27	0.884 22	0.758 22	0.815 8	0.725 4	0.927 26	0.867 25	0.743 18

OccuSeg+Semantic	0.764 11	0.758 60	0.796 33	0.839 21	0.746 28	0.907 1	0.562 12	0.850 28	0.680 17	0.672 17	0.978 5	0.610 4	0.335 20	0.777 9	0.819 48	0.847 1	0.830 1	0.691 16	0.972 2	0.885 10	0.727 25

O-CNN	0.762 13	0.924 8	0.823 8	0.844 17	0.770 12	0.852 21	0.577 5	0.847 31	0.711 3	0.640 31	0.958 23	0.592 11	0.217 76	0.762 20	0.888 19	0.758 22	0.813 12	0.726 3	0.932 24	0.868 24	0.744 17
Peng-Shuai Wang, Yang Liu, Yu-Xiao Guo, Chun-Yu Sun, Xin Tong: O-CNN: Octree-based Convolutional Neural Networks for 3D Shape Analysis. SIGGRAPH 2017
DiffSegNet	0.758 14	0.725 77	0.789 40	0.843 18	0.762 16	0.856 14	0.562 12	0.920 4	0.657 27	0.658 21	0.958 23	0.589 13	0.337 17	0.782 6	0.879 23	0.787 11	0.779 38	0.678 21	0.926 28	0.880 13	0.799 4

DTC	0.757 15	0.843 27	0.820 11	0.847 14	0.791 2	0.862 11	0.511 36	0.870 20	0.707 5	0.652 23	0.954 38	0.604 8	0.279 47	0.760 21	0.942 2	0.734 29	0.766 47	0.701 12	0.884 57	0.874 22	0.736 19

OA-CNN-L_ScanNet20	0.756 16	0.783 46	0.826 6	0.858 5	0.776 8	0.837 36	0.548 18	0.896 14	0.649 29	0.675 15	0.962 16	0.586 16	0.335 20	0.771 14	0.802 52	0.770 18	0.787 35	0.691 16	0.936 19	0.880 13	0.761 13

PNE	0.755 17	0.786 44	0.835 5	0.834 25	0.758 18	0.849 24	0.570 9	0.836 35	0.648 30	0.668 19	0.978 5	0.581 19	0.367 7	0.683 38	0.856 32	0.804 7	0.801 21	0.678 21	0.961 5	0.889 6	0.716 32
P. Hermosilla: Point Neighborhood Embeddings.
ConDaFormer	0.755 17	0.927 6	0.822 9	0.836 23	0.801 1	0.849 24	0.516 33	0.864 25	0.651 28	0.680 13	0.958 23	0.584 18	0.282 44	0.759 23	0.855 34	0.728 31	0.802 17	0.678 21	0.880 62	0.873 23	0.756 15
Lunhao Duan, Shanshan Zhao, Nan Xue, Mingming Gong, Guisong Xia, Dacheng Tao: ConDaFormer : Disassembled Transformer with Local Structure Enhancement for 3D Point Cloud Understanding. Neurips, 2023
PointTransformerV2	0.752 19	0.742 68	0.809 24	0.872 2	0.758 18	0.860 12	0.552 16	0.891 16	0.610 44	0.687 8	0.960 19	0.559 28	0.304 32	0.766 18	0.926 6	0.767 19	0.797 25	0.644 36	0.942 13	0.876 19	0.722 29
Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao: Point Transformer V2: Grouped Vector Attention and Partition-based Pooling. NeurIPS 2022
DMF-Net	0.752 19	0.906 13	0.793 37	0.802 44	0.689 43	0.825 49	0.556 14	0.867 21	0.681 16	0.602 47	0.960 19	0.555 30	0.365 8	0.779 8	0.859 29	0.747 25	0.795 29	0.717 7	0.917 34	0.856 33	0.764 12
C.Yang, Y.Yan, W.Zhao, J.Ye, X.Yang, A.Hussain, B.Dong, K.Huang: Towards Deeper and Better Multi-view Feature Fusion for 3D Semantic Segmentation. ICONIP 2023
BPNet	0.749 21	0.909 11	0.818 15	0.811 36	0.752 23	0.839 35	0.485 50	0.842 32	0.673 19	0.644 26	0.957 28	0.528 40	0.305 31	0.773 12	0.859 29	0.788 10	0.818 7	0.693 15	0.916 35	0.856 33	0.723 28
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
PointConvFormer	0.749 21	0.793 42	0.790 38	0.807 40	0.750 27	0.856 14	0.524 29	0.881 17	0.588 56	0.642 30	0.977 9	0.591 12	0.274 50	0.781 7	0.929 4	0.804 7	0.796 26	0.642 37	0.947 10	0.885 10	0.715 33
Wenxuan Wu, Qi Shan, Li Fuxin: PointConvFormer: Revenge of the Point-based Convolution.
MSP	0.748 23	0.623 97	0.804 27	0.859 4	0.745 29	0.824 51	0.501 40	0.912 7	0.690 11	0.685 10	0.956 29	0.567 23	0.320 26	0.768 17	0.918 7	0.720 36	0.802 17	0.676 25	0.921 32	0.881 12	0.779 8

StratifiedFormer	0.747 24	0.901 14	0.803 28	0.845 16	0.757 20	0.846 29	0.512 35	0.825 39	0.696 9	0.645 25	0.956 29	0.576 20	0.262 61	0.744 32	0.861 28	0.742 26	0.770 45	0.705 10	0.899 47	0.860 30	0.734 20
Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia: Stratified Transformer for 3D Point Cloud Segmentation. CVPR 2022
VMNet	0.746 25	0.870 19	0.838 3	0.858 5	0.729 34	0.850 23	0.501 40	0.874 19	0.587 57	0.658 21	0.956 29	0.564 25	0.299 34	0.765 19	0.900 14	0.716 39	0.812 13	0.631 42	0.939 16	0.858 31	0.709 34
Zeyu HU, Xuyang Bai, Jiaxiang Shang, Runze Zhang, Jiayu Dong, Xin Wang, Guangyuan Sun, Hongbo Fu, Chiew-Lan Tai: VMNet: Voxel-Mesh Network for Geodesic-Aware 3D Semantic Segmentation. ICCV 2021 (Oral)
Virtual MVFusion	0.746 25	0.771 54	0.819 13	0.848 13	0.702 40	0.865 10	0.397 88	0.899 12	0.699 7	0.664 20	0.948 58	0.588 14	0.330 22	0.746 31	0.851 38	0.764 20	0.796 26	0.704 11	0.935 20	0.866 26	0.728 23
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
DiffSeg3D2	0.745 27	0.725 77	0.814 19	0.837 22	0.751 25	0.831 43	0.514 34	0.896 14	0.674 18	0.684 11	0.960 19	0.564 25	0.303 33	0.773 12	0.820 47	0.713 42	0.798 24	0.690 18	0.923 30	0.875 20	0.757 14

Retro-FPN	0.744 28	0.842 28	0.800 29	0.767 58	0.740 30	0.836 38	0.541 21	0.914 6	0.672 20	0.626 35	0.958 23	0.552 31	0.272 52	0.777 9	0.886 21	0.696 49	0.801 21	0.674 28	0.941 14	0.858 31	0.717 30
Peng Xiang, Xin Wen, Yu-Shen Liu, Hui Zhang, Yi Fang, Zhizhong Han: Retrospective Feature Pyramid Network for Point Cloud Semantic Segmentation. ICCV 2023
EQ-Net	0.743 29	0.620 98	0.799 32	0.849 11	0.730 33	0.822 53	0.493 47	0.897 13	0.664 21	0.681 12	0.955 32	0.562 27	0.378 4	0.760 21	0.903 12	0.738 27	0.801 21	0.673 29	0.907 39	0.877 16	0.745 16
Zetong Yang, Li Jiang, Yanan Sun, Bernt Schiele, Jiaya JIa: A Unified Query-based Paradigm for Point Cloud Understanding. CVPR 2022
LRPNet	0.742 30	0.816 36	0.806 26	0.807 40	0.752 23	0.828 47	0.575 7	0.839 34	0.699 7	0.637 32	0.954 38	0.520 43	0.320 26	0.755 26	0.834 42	0.760 21	0.772 42	0.676 25	0.915 37	0.862 28	0.717 30

SAT	0.742 30	0.860 22	0.765 52	0.819 31	0.769 14	0.848 26	0.533 25	0.829 37	0.663 22	0.631 34	0.955 32	0.586 16	0.274 50	0.753 27	0.896 16	0.729 30	0.760 53	0.666 31	0.921 32	0.855 35	0.733 21

LargeKernel3D	0.739 32	0.909 11	0.820 11	0.806 42	0.740 30	0.852 21	0.545 19	0.826 38	0.594 55	0.643 27	0.955 32	0.541 33	0.263 60	0.723 36	0.858 31	0.775 17	0.767 46	0.678 21	0.933 22	0.848 40	0.694 39
Yukang Chen, Jianhui Liu, Xiangyu Zhang, Xiaojuan Qi, Jiaya Jia: LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs. CVPR 2023
MinkowskiNet	0.736 33	0.859 23	0.818 15	0.832 27	0.709 38	0.840 33	0.521 31	0.853 27	0.660 24	0.643 27	0.951 48	0.544 32	0.286 42	0.731 34	0.893 17	0.675 58	0.772 42	0.683 20	0.874 69	0.852 38	0.727 25
C. Choy, J. Gwak, S. Savarese: 4D Spatio-Temporal ConvNets: Minkowski Convolutional Neural Networks. CVPR 2019
RPN	0.736 33	0.776 50	0.790 38	0.851 9	0.754 22	0.854 17	0.491 49	0.866 23	0.596 54	0.686 9	0.955 32	0.536 35	0.342 15	0.624 53	0.869 25	0.787 11	0.802 17	0.628 43	0.927 26	0.875 20	0.704 36

IPCA	0.731 35	0.890 15	0.837 4	0.864 3	0.726 35	0.873 6	0.530 28	0.824 40	0.489 90	0.647 24	0.978 5	0.609 5	0.336 18	0.624 53	0.733 61	0.758 22	0.776 40	0.570 68	0.949 8	0.877 16	0.728 23

PointTransformer++	0.725 36	0.727 76	0.811 23	0.819 31	0.765 15	0.841 32	0.502 39	0.814 45	0.621 40	0.623 37	0.955 32	0.556 29	0.284 43	0.620 55	0.866 26	0.781 14	0.757 57	0.648 34	0.932 24	0.862 28	0.709 34

SparseConvNet	0.725 36	0.647 93	0.821 10	0.846 15	0.721 36	0.869 7	0.533 25	0.754 61	0.603 50	0.614 39	0.955 32	0.572 22	0.325 24	0.710 37	0.870 24	0.724 34	0.823 3	0.628 43	0.934 21	0.865 27	0.683 42

MatchingNet	0.724 38	0.812 38	0.812 21	0.810 37	0.735 32	0.834 40	0.495 46	0.860 26	0.572 64	0.602 47	0.954 38	0.512 45	0.280 46	0.757 24	0.845 40	0.725 33	0.780 37	0.606 53	0.937 18	0.851 39	0.700 38

INS-Conv-semantic	0.717 39	0.751 63	0.759 55	0.812 35	0.704 39	0.868 8	0.537 24	0.842 32	0.609 46	0.608 43	0.953 42	0.534 37	0.293 37	0.616 56	0.864 27	0.719 38	0.793 30	0.640 38	0.933 22	0.845 44	0.663 48

PointMetaBase	0.714 40	0.835 29	0.785 41	0.821 29	0.684 45	0.846 29	0.531 27	0.865 24	0.614 41	0.596 51	0.953 42	0.500 48	0.246 66	0.674 39	0.888 19	0.692 50	0.764 49	0.624 45	0.849 84	0.844 45	0.675 44

contrastBoundary	0.705 41	0.769 57	0.775 46	0.809 38	0.687 44	0.820 56	0.439 76	0.812 46	0.661 23	0.591 53	0.945 66	0.515 44	0.171 94	0.633 50	0.856 32	0.720 36	0.796 26	0.668 30	0.889 54	0.847 41	0.689 40
Liyao Tang, Yibing Zhan, Zhe Chen, Baosheng Yu, Dacheng Tao: Contrastive Boundary Learning for Point Cloud Segmentation. CVPR2022
ClickSeg_Semantic	0.703 42	0.774 52	0.800 29	0.793 49	0.760 17	0.847 28	0.471 54	0.802 49	0.463 97	0.634 33	0.968 13	0.491 51	0.271 54	0.726 35	0.910 9	0.706 44	0.815 8	0.551 80	0.878 63	0.833 46	0.570 80

RFCR	0.702 43	0.889 16	0.745 66	0.813 34	0.672 48	0.818 60	0.493 47	0.815 44	0.623 38	0.610 41	0.947 60	0.470 60	0.249 65	0.594 59	0.848 39	0.705 45	0.779 38	0.646 35	0.892 52	0.823 52	0.611 63
Jingyu Gong, Jiachen Xu, Xin Tan, Haichuan Song, Yanyun Qu, Yuan Xie, Lizhuang Ma: Omni-Supervised Point Cloud Segmentation via Gradual Receptive Field Component Reasoning. CVPR2021
One Thing One Click	0.701 44	0.825 33	0.796 33	0.723 65	0.716 37	0.832 42	0.433 78	0.816 42	0.634 35	0.609 42	0.969 11	0.418 86	0.344 14	0.559 71	0.833 43	0.715 40	0.808 15	0.560 74	0.902 44	0.847 41	0.680 43

JSENet	0.699 45	0.881 18	0.762 53	0.821 29	0.667 49	0.800 72	0.522 30	0.792 52	0.613 42	0.607 44	0.935 86	0.492 50	0.205 81	0.576 64	0.853 36	0.691 52	0.758 55	0.652 33	0.872 72	0.828 49	0.649 52
Zeyu HU, Mingmin Zhen, Xuyang BAI, Hongbo Fu, Chiew-lan Tai: JSENet: Joint Semantic Segmentation and Edge Detection Network for 3D Point Clouds. ECCV 2020
One-Thing-One-Click	0.693 46	0.743 67	0.794 35	0.655 88	0.684 45	0.822 53	0.497 45	0.719 71	0.622 39	0.617 38	0.977 9	0.447 73	0.339 16	0.750 30	0.664 77	0.703 47	0.790 33	0.596 58	0.946 12	0.855 35	0.647 53
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
PicassoNet-II	0.692 47	0.732 72	0.772 47	0.786 50	0.677 47	0.866 9	0.517 32	0.848 29	0.509 83	0.626 35	0.952 46	0.536 35	0.225 72	0.545 77	0.704 68	0.689 55	0.810 14	0.564 73	0.903 43	0.854 37	0.729 22
Huan Lei, Naveed Akhtar, Mubarak Shah, and Ajmal Mian: Geometric feature learning for 3D meshes.
Feature_GeometricNet	0.690 48	0.884 17	0.754 59	0.795 47	0.647 56	0.818 60	0.422 80	0.802 49	0.612 43	0.604 45	0.945 66	0.462 63	0.189 89	0.563 70	0.853 36	0.726 32	0.765 48	0.632 41	0.904 41	0.821 55	0.606 67
Kangcheng Liu, Ben M. Chen: https://arxiv.org/abs/2012.09439. arXiv Preprint
FusionNet	0.688 49	0.704 83	0.741 70	0.754 62	0.656 51	0.829 45	0.501 40	0.741 66	0.609 46	0.548 61	0.950 52	0.522 42	0.371 5	0.633 50	0.756 56	0.715 40	0.771 44	0.623 46	0.861 80	0.814 58	0.658 49
Feihu Zhang, Jin Fang, Benjamin Wah, Philip Torr: Deep FusionNet for Point Cloud Semantic Segmentation. ECCV 2020
Feature-Geometry Net	0.685 50	0.866 20	0.748 63	0.819 31	0.645 58	0.794 75	0.450 66	0.802 49	0.587 57	0.604 45	0.945 66	0.464 62	0.201 84	0.554 73	0.840 41	0.723 35	0.732 67	0.602 56	0.907 39	0.822 54	0.603 70

KP-FCNN	0.684 51	0.847 26	0.758 57	0.784 52	0.647 56	0.814 63	0.473 53	0.772 55	0.605 48	0.594 52	0.935 86	0.450 71	0.181 92	0.587 60	0.805 51	0.690 53	0.785 36	0.614 49	0.882 59	0.819 56	0.632 59
H. Thomas, C. Qi, J. Deschaud, B. Marcotegui, F. Goulette, L. Guibas.: KPConv: Flexible and Deformable Convolution for Point Clouds. ICCV 2019
VACNN++	0.684 51	0.728 75	0.757 58	0.776 55	0.690 41	0.804 70	0.464 59	0.816 42	0.577 63	0.587 54	0.945 66	0.508 47	0.276 49	0.671 40	0.710 66	0.663 63	0.750 61	0.589 63	0.881 60	0.832 48	0.653 51

DGNet	0.684 51	0.712 82	0.784 42	0.782 54	0.658 50	0.835 39	0.499 44	0.823 41	0.641 32	0.597 50	0.950 52	0.487 53	0.281 45	0.575 65	0.619 81	0.647 71	0.764 49	0.620 48	0.871 75	0.846 43	0.688 41

PointContrast_LA_SEM	0.683 54	0.757 61	0.784 42	0.786 50	0.639 60	0.824 51	0.408 83	0.775 54	0.604 49	0.541 63	0.934 90	0.532 38	0.269 56	0.552 74	0.777 54	0.645 74	0.793 30	0.640 38	0.913 38	0.824 51	0.671 45

Superpoint Network	0.683 54	0.851 25	0.728 74	0.800 46	0.653 53	0.806 68	0.468 56	0.804 47	0.572 64	0.602 47	0.946 63	0.453 70	0.239 69	0.519 82	0.822 45	0.689 55	0.762 52	0.595 60	0.895 50	0.827 50	0.630 60

VI-PointConv	0.676 56	0.770 56	0.754 59	0.783 53	0.621 64	0.814 63	0.552 16	0.758 59	0.571 66	0.557 59	0.954 38	0.529 39	0.268 58	0.530 80	0.682 72	0.675 58	0.719 70	0.603 55	0.888 55	0.833 46	0.665 47
Xingyi Li, Wenxuan Wu, Xiaoli Z. Fern, Li Fuxin: The Devils in the Point Clouds: Studying the Robustness of Point Cloud Convolutions.
ROSMRF3D	0.673 57	0.789 43	0.748 63	0.763 60	0.635 62	0.814 63	0.407 85	0.747 63	0.581 61	0.573 56	0.950 52	0.484 54	0.271 54	0.607 57	0.754 57	0.649 68	0.774 41	0.596 58	0.883 58	0.823 52	0.606 67

SALANet	0.670 58	0.816 36	0.770 50	0.768 57	0.652 54	0.807 67	0.451 63	0.747 63	0.659 26	0.545 62	0.924 96	0.473 59	0.149 104	0.571 67	0.811 50	0.635 77	0.746 62	0.623 46	0.892 52	0.794 71	0.570 80

O3DSeg	0.668 59	0.822 34	0.771 49	0.496 108	0.651 55	0.833 41	0.541 21	0.761 58	0.555 72	0.611 40	0.966 14	0.489 52	0.370 6	0.388 102	0.580 84	0.776 16	0.751 59	0.570 68	0.956 6	0.817 57	0.646 54

PointASNL	0.666 60	0.703 84	0.781 44	0.751 64	0.655 52	0.830 44	0.471 54	0.769 56	0.474 93	0.537 65	0.951 48	0.475 58	0.279 47	0.635 48	0.698 71	0.675 58	0.751 59	0.553 79	0.816 91	0.806 62	0.703 37
Xu Yan, Chaoda Zheng, Zhen Li, Sheng Wang, Shuguang Cui: PointASNL: Robust Point Clouds Processing using Nonlocal Neural Networks with Adaptive Sampling. CVPR 2020
PointConv	0.666 60	0.781 47	0.759 55	0.699 73	0.644 59	0.822 53	0.475 52	0.779 53	0.564 69	0.504 79	0.953 42	0.428 80	0.203 83	0.586 62	0.754 57	0.661 64	0.753 58	0.588 64	0.902 44	0.813 60	0.642 55
Wenxuan Wu, Zhongang Qi, Li Fuxin: PointConv: Deep Convolutional Networks on 3D Point Clouds. CVPR 2019
PPCNN++	0.663 62	0.746 65	0.708 77	0.722 66	0.638 61	0.820 56	0.451 63	0.566 99	0.599 52	0.541 63	0.950 52	0.510 46	0.313 28	0.648 45	0.819 48	0.616 82	0.682 85	0.590 62	0.869 76	0.810 61	0.656 50
Pyunghwan Ahn, Juyoung Yang, Eojindl Yi, Chanho Lee, Junmo Kim: Projection-based Point Convolution for Efficient Point Cloud Segmentation. IEEE Access
DCM-Net	0.658 63	0.778 48	0.702 80	0.806 42	0.619 65	0.813 66	0.468 56	0.693 79	0.494 86	0.524 71	0.941 78	0.449 72	0.298 35	0.510 84	0.821 46	0.675 58	0.727 69	0.568 71	0.826 89	0.803 65	0.637 57
Jonas Schult, Francis Engelmann, Theodora Kontogianni, Bastian Leibe: DualConvMesh-Net: Joint Geodesic and Euclidean Convolutions on 3D Meshes. CVPR 2020 [Oral]
MVF-GNN	0.658 63	0.558 105	0.751 61	0.655 88	0.690 41	0.722 97	0.453 62	0.867 21	0.579 62	0.576 55	0.893 108	0.523 41	0.293 37	0.733 33	0.571 86	0.692 50	0.659 92	0.606 53	0.875 66	0.804 64	0.668 46

HPGCNN	0.656 65	0.698 86	0.743 68	0.650 90	0.564 82	0.820 56	0.505 38	0.758 59	0.631 36	0.479 83	0.945 66	0.480 56	0.226 70	0.572 66	0.774 55	0.690 53	0.735 65	0.614 49	0.853 83	0.776 86	0.597 73
Jisheng Dang, Qingyong Hu, Yulan Guo, Jun Yang: HPGCNN.
SAFNet-seg	0.654 66	0.752 62	0.734 72	0.664 86	0.583 77	0.815 62	0.399 87	0.754 61	0.639 33	0.535 67	0.942 76	0.470 60	0.309 30	0.665 41	0.539 88	0.650 67	0.708 75	0.635 40	0.857 82	0.793 73	0.642 55
Linqing Zhao, Jiwen Lu, Jie Zhou: Similarity-Aware Fusion Network for 3D Semantic Segmentation. IROS 2021
RandLA-Net	0.645 67	0.778 48	0.731 73	0.699 73	0.577 78	0.829 45	0.446 68	0.736 67	0.477 92	0.523 73	0.945 66	0.454 67	0.269 56	0.484 92	0.749 60	0.618 80	0.738 63	0.599 57	0.827 88	0.792 76	0.621 62

PointConv-SFPN	0.641 68	0.776 50	0.703 79	0.721 67	0.557 85	0.826 48	0.451 63	0.672 84	0.563 70	0.483 82	0.943 75	0.425 83	0.162 99	0.644 46	0.726 62	0.659 65	0.709 74	0.572 67	0.875 66	0.786 81	0.559 86

MVPNet	0.641 68	0.831 30	0.715 75	0.671 83	0.590 73	0.781 81	0.394 89	0.679 81	0.642 31	0.553 60	0.937 83	0.462 63	0.256 62	0.649 44	0.406 102	0.626 78	0.691 82	0.666 31	0.877 64	0.792 76	0.608 66
Maximilian Jaritz, Jiayuan Gu, Hao Su: Multi-view PointNet for 3D Scene Understanding. GMDL Workshop, ICCV 2019
PointMRNet	0.640 70	0.717 81	0.701 81	0.692 76	0.576 79	0.801 71	0.467 58	0.716 72	0.563 70	0.459 89	0.953 42	0.429 79	0.169 96	0.581 63	0.854 35	0.605 83	0.710 72	0.550 81	0.894 51	0.793 73	0.575 78

FPConv	0.639 71	0.785 45	0.760 54	0.713 71	0.603 68	0.798 73	0.392 90	0.534 104	0.603 50	0.524 71	0.948 58	0.457 65	0.250 64	0.538 78	0.723 64	0.598 87	0.696 80	0.614 49	0.872 72	0.799 66	0.567 83
Yiqun Lin, Zizheng Yan, Haibin Huang, Dong Du, Ligang Liu, Shuguang Cui, Xiaoguang Han: FPConv: Learning Local Flattening for Point Convolution. CVPR 2020
PD-Net	0.638 72	0.797 41	0.769 51	0.641 96	0.590 73	0.820 56	0.461 60	0.537 103	0.637 34	0.536 66	0.947 60	0.388 93	0.206 80	0.656 42	0.668 75	0.647 71	0.732 67	0.585 65	0.868 77	0.793 73	0.473 106

PointSPNet	0.637 73	0.734 71	0.692 88	0.714 70	0.576 79	0.797 74	0.446 68	0.743 65	0.598 53	0.437 94	0.942 76	0.403 89	0.150 103	0.626 52	0.800 53	0.649 68	0.697 79	0.557 77	0.846 85	0.777 85	0.563 84

SConv	0.636 74	0.830 31	0.697 84	0.752 63	0.572 81	0.780 83	0.445 70	0.716 72	0.529 76	0.530 68	0.951 48	0.446 74	0.170 95	0.507 87	0.666 76	0.636 76	0.682 85	0.541 87	0.886 56	0.799 66	0.594 74

Supervoxel-CNN	0.635 75	0.656 91	0.711 76	0.719 68	0.613 66	0.757 92	0.444 73	0.765 57	0.534 75	0.566 57	0.928 94	0.478 57	0.272 52	0.636 47	0.531 90	0.664 62	0.645 96	0.508 94	0.864 79	0.792 76	0.611 63

joint point-based	0.634 76	0.614 99	0.778 45	0.667 85	0.633 63	0.825 49	0.420 81	0.804 47	0.467 95	0.561 58	0.951 48	0.494 49	0.291 39	0.566 68	0.458 97	0.579 93	0.764 49	0.559 76	0.838 86	0.814 58	0.598 72
Hung-Yueh Chiang, Yen-Liang Lin, Yueh-Cheng Liu, Winston H. Hsu: A Unified Point-Based Framework for 3D Segmentation. 3DV 2019
PointMTL	0.632 77	0.731 73	0.688 91	0.675 80	0.591 72	0.784 80	0.444 73	0.565 100	0.610 44	0.492 80	0.949 56	0.456 66	0.254 63	0.587 60	0.706 67	0.599 86	0.665 91	0.612 52	0.868 77	0.791 79	0.579 77

3DSM_DMMF	0.631 78	0.626 96	0.745 66	0.801 45	0.607 67	0.751 93	0.506 37	0.729 70	0.565 68	0.491 81	0.866 111	0.434 75	0.197 87	0.595 58	0.630 80	0.709 43	0.705 77	0.560 74	0.875 66	0.740 96	0.491 101

PointNet2-SFPN	0.631 78	0.771 54	0.692 88	0.672 81	0.524 90	0.837 36	0.440 75	0.706 77	0.538 74	0.446 91	0.944 72	0.421 85	0.219 75	0.552 74	0.751 59	0.591 89	0.737 64	0.543 86	0.901 46	0.768 88	0.557 87

APCF-Net	0.631 78	0.742 68	0.687 93	0.672 81	0.557 85	0.792 78	0.408 83	0.665 85	0.545 73	0.508 76	0.952 46	0.428 80	0.186 90	0.634 49	0.702 69	0.620 79	0.706 76	0.555 78	0.873 70	0.798 68	0.581 76
Haojia, Lin: Adaptive Pyramid Context Fusion for Point Cloud Perception. GRSL
FusionAwareConv	0.630 81	0.604 101	0.741 70	0.766 59	0.590 73	0.747 94	0.501 40	0.734 68	0.503 85	0.527 69	0.919 100	0.454 67	0.323 25	0.550 76	0.420 101	0.678 57	0.688 83	0.544 84	0.896 49	0.795 70	0.627 61
Jiazhao Zhang, Chenyang Zhu, Lintao Zheng, Kai Xu: Fusion-Aware Point Convolution for Online Semantic 3D Scene Segmentation. CVPR 2020
DenSeR	0.628 82	0.800 40	0.625 104	0.719 68	0.545 87	0.806 68	0.445 70	0.597 93	0.448 100	0.519 74	0.938 82	0.481 55	0.328 23	0.489 91	0.499 95	0.657 66	0.759 54	0.592 61	0.881 60	0.797 69	0.634 58

SegGroup_sem	0.627 83	0.818 35	0.747 65	0.701 72	0.602 69	0.764 89	0.385 94	0.629 90	0.490 88	0.508 76	0.931 93	0.409 88	0.201 84	0.564 69	0.725 63	0.618 80	0.692 81	0.539 88	0.873 70	0.794 71	0.548 90
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
SIConv	0.625 84	0.830 31	0.694 86	0.757 61	0.563 83	0.772 87	0.448 67	0.647 88	0.520 79	0.509 75	0.949 56	0.431 78	0.191 88	0.496 89	0.614 82	0.647 71	0.672 89	0.535 90	0.876 65	0.783 82	0.571 79

dtc_net	0.625 84	0.703 84	0.751 61	0.794 48	0.535 88	0.848 26	0.480 51	0.676 83	0.528 77	0.469 86	0.944 72	0.454 67	0.004 117	0.464 94	0.636 79	0.704 46	0.758 55	0.548 83	0.924 29	0.787 80	0.492 100

HPEIN	0.618 86	0.729 74	0.668 94	0.647 92	0.597 71	0.766 88	0.414 82	0.680 80	0.520 79	0.525 70	0.946 63	0.432 76	0.215 77	0.493 90	0.599 83	0.638 75	0.617 101	0.570 68	0.897 48	0.806 62	0.605 69
Li Jiang, Hengshuang Zhao, Shu Liu, Xiaoyong Shen, Chi-Wing Fu, Jiaya Jia: Hierarchical Point-Edge Interaction Network for Point Cloud Semantic Segmentation. ICCV 2019
SPH3D-GCN	0.610 87	0.858 24	0.772 47	0.489 109	0.532 89	0.792 78	0.404 86	0.643 89	0.570 67	0.507 78	0.935 86	0.414 87	0.046 114	0.510 84	0.702 69	0.602 85	0.705 77	0.549 82	0.859 81	0.773 87	0.534 93
Huan Lei, Naveed Akhtar, and Ajmal Mian: Spherical Kernel for Efficient Graph Convolution on 3D Point Clouds. TPAMI 2020
AttAN	0.609 88	0.760 59	0.667 95	0.649 91	0.521 91	0.793 76	0.457 61	0.648 87	0.528 77	0.434 96	0.947 60	0.401 90	0.153 102	0.454 95	0.721 65	0.648 70	0.717 71	0.536 89	0.904 41	0.765 89	0.485 102
Gege Zhang, Qinghua Ma, Licheng Jiao, Fang Liu and Qigong Sun: AttAN: Attention Adversarial Networks for 3D Point Cloud Semantic Segmentation. IJCAI2020
wsss-transformer	0.600 89	0.634 95	0.743 68	0.697 75	0.601 70	0.781 81	0.437 77	0.585 96	0.493 87	0.446 91	0.933 91	0.394 91	0.011 116	0.654 43	0.661 78	0.603 84	0.733 66	0.526 91	0.832 87	0.761 91	0.480 103

LAP-D	0.594 90	0.720 79	0.692 88	0.637 97	0.456 101	0.773 86	0.391 92	0.730 69	0.587 57	0.445 93	0.940 80	0.381 94	0.288 40	0.434 98	0.453 99	0.591 89	0.649 94	0.581 66	0.777 95	0.749 95	0.610 65

DPC	0.592 91	0.720 79	0.700 82	0.602 101	0.480 97	0.762 91	0.380 95	0.713 75	0.585 60	0.437 94	0.940 80	0.369 96	0.288 40	0.434 98	0.509 94	0.590 91	0.639 99	0.567 72	0.772 97	0.755 93	0.592 75
Francis Engelmann, Theodora Kontogianni, Bastian Leibe: Dilated Point Convolutions: On the Receptive Field Size of Point Convolutions on 3D Point Clouds. ICRA 2020
CCRFNet	0.589 92	0.766 58	0.659 99	0.683 78	0.470 100	0.740 96	0.387 93	0.620 92	0.490 88	0.476 84	0.922 98	0.355 99	0.245 67	0.511 83	0.511 93	0.571 94	0.643 97	0.493 98	0.872 72	0.762 90	0.600 71

ROSMRF	0.580 93	0.772 53	0.707 78	0.681 79	0.563 83	0.764 89	0.362 97	0.515 105	0.465 96	0.465 88	0.936 85	0.427 82	0.207 79	0.438 96	0.577 85	0.536 97	0.675 88	0.486 99	0.723 103	0.779 83	0.524 96

SD-DETR	0.576 94	0.746 65	0.609 108	0.445 113	0.517 92	0.643 108	0.366 96	0.714 74	0.456 98	0.468 87	0.870 110	0.432 76	0.264 59	0.558 72	0.674 73	0.586 92	0.688 83	0.482 100	0.739 101	0.733 98	0.537 92

SQN_0.1%	0.569 95	0.676 88	0.696 85	0.657 87	0.497 93	0.779 84	0.424 79	0.548 101	0.515 81	0.376 101	0.902 107	0.422 84	0.357 9	0.379 103	0.456 98	0.596 88	0.659 92	0.544 84	0.685 106	0.665 109	0.556 88

TextureNet	0.566 96	0.672 90	0.664 96	0.671 83	0.494 95	0.719 98	0.445 70	0.678 82	0.411 106	0.396 99	0.935 86	0.356 98	0.225 72	0.412 100	0.535 89	0.565 95	0.636 100	0.464 102	0.794 94	0.680 106	0.568 82
Jingwei Huang, Haotian Zhang, Li Yi, Thomas Funkerhouser, Matthias Niessner, Leonidas Guibas: TextureNet: Consistent Local Parametrizations for Learning from High-Resolution Signals on Meshes. CVPR
DVVNet	0.562 97	0.648 92	0.700 82	0.770 56	0.586 76	0.687 102	0.333 101	0.650 86	0.514 82	0.475 85	0.906 104	0.359 97	0.223 74	0.340 105	0.442 100	0.422 108	0.668 90	0.501 95	0.708 104	0.779 83	0.534 93

Pointnet++ & Feature	0.557 98	0.735 70	0.661 98	0.686 77	0.491 96	0.744 95	0.392 90	0.539 102	0.451 99	0.375 102	0.946 63	0.376 95	0.205 81	0.403 101	0.356 105	0.553 96	0.643 97	0.497 96	0.824 90	0.756 92	0.515 97

GMLPs	0.538 99	0.495 110	0.693 87	0.647 92	0.471 99	0.793 76	0.300 104	0.477 106	0.505 84	0.358 104	0.903 106	0.327 102	0.081 111	0.472 93	0.529 91	0.448 106	0.710 72	0.509 92	0.746 99	0.737 97	0.554 89

PanopticFusion-label	0.529 100	0.491 111	0.688 91	0.604 100	0.386 106	0.632 109	0.225 114	0.705 78	0.434 103	0.293 110	0.815 112	0.348 100	0.241 68	0.499 88	0.669 74	0.507 99	0.649 94	0.442 108	0.796 93	0.602 113	0.561 85
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
subcloud_weak	0.516 101	0.676 88	0.591 111	0.609 98	0.442 102	0.774 85	0.335 100	0.597 93	0.422 105	0.357 105	0.932 92	0.341 101	0.094 110	0.298 107	0.528 92	0.473 104	0.676 87	0.495 97	0.602 112	0.721 101	0.349 113

Online SegFusion	0.515 102	0.607 100	0.644 102	0.579 103	0.434 103	0.630 110	0.353 98	0.628 91	0.440 101	0.410 97	0.762 116	0.307 104	0.167 97	0.520 81	0.403 103	0.516 98	0.565 104	0.447 106	0.678 107	0.701 103	0.514 98
Davide Menini, Suryansh Kumar, Martin R. Oswald, Erik Sandstroem, Cristian Sminchisescu, Luc van Gool: A Real-Time Learning Framework for Joint 3D Reconstruction and Semantic Segmentation. Robotics and Automation Letters Submission
3DMV, FTSDF	0.501 103	0.558 105	0.608 109	0.424 115	0.478 98	0.690 101	0.246 110	0.586 95	0.468 94	0.450 90	0.911 102	0.394 91	0.160 100	0.438 96	0.212 112	0.432 107	0.541 110	0.475 101	0.742 100	0.727 99	0.477 104

PCNN	0.498 104	0.559 104	0.644 102	0.560 105	0.420 105	0.711 100	0.229 112	0.414 107	0.436 102	0.352 106	0.941 78	0.324 103	0.155 101	0.238 112	0.387 104	0.493 100	0.529 111	0.509 92	0.813 92	0.751 94	0.504 99

Weakly-Openseg v3	0.489 105	0.749 64	0.664 96	0.646 94	0.496 94	0.559 114	0.122 117	0.577 97	0.257 117	0.364 103	0.805 113	0.198 115	0.096 109	0.510 84	0.496 96	0.361 112	0.563 105	0.359 115	0.777 95	0.644 110	0.532 95

3DMV	0.484 106	0.484 112	0.538 113	0.643 95	0.424 104	0.606 113	0.310 102	0.574 98	0.433 104	0.378 100	0.796 114	0.301 105	0.214 78	0.537 79	0.208 113	0.472 105	0.507 114	0.413 111	0.693 105	0.602 113	0.539 91
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
PointCNN with RGB	0.458 107	0.577 103	0.611 107	0.356 117	0.321 114	0.715 99	0.299 106	0.376 111	0.328 113	0.319 108	0.944 72	0.285 107	0.164 98	0.216 115	0.229 110	0.484 102	0.545 109	0.456 104	0.755 98	0.709 102	0.475 105
Yangyan Li, Rui Bu, Mingchao Sun, Baoquan Chen: PointCNN. NeurIPS 2018
FCPN	0.447 108	0.679 87	0.604 110	0.578 104	0.380 107	0.682 103	0.291 107	0.106 117	0.483 91	0.258 115	0.920 99	0.258 111	0.025 115	0.231 114	0.325 106	0.480 103	0.560 107	0.463 103	0.725 102	0.666 108	0.231 117
Dario Rethage, Johanna Wald, Jürgen Sturm, Nassir Navab, Federico Tombari: Fully-Convolutional Point Networks for Large-Scale Point Clouds. ECCV 2018
DGCNN_reproduce	0.446 109	0.474 113	0.623 105	0.463 111	0.366 109	0.651 106	0.310 102	0.389 110	0.349 111	0.330 107	0.937 83	0.271 109	0.126 106	0.285 108	0.224 111	0.350 114	0.577 103	0.445 107	0.625 110	0.723 100	0.394 109
Yue Wang, Yongbin Sun, Ziwei Liu, Sanjay E. Sarma, Michael M. Bronstein, Justin M. Solomon: Dynamic Graph CNN for Learning on Point Clouds. TOG 2019
PNET2	0.442 110	0.548 107	0.548 112	0.597 102	0.363 110	0.628 111	0.300 104	0.292 112	0.374 108	0.307 109	0.881 109	0.268 110	0.186 90	0.238 112	0.204 114	0.407 109	0.506 115	0.449 105	0.667 108	0.620 112	0.462 107

SurfaceConvPF	0.442 110	0.505 109	0.622 106	0.380 116	0.342 112	0.654 105	0.227 113	0.397 109	0.367 109	0.276 112	0.924 96	0.240 112	0.198 86	0.359 104	0.262 108	0.366 110	0.581 102	0.435 109	0.640 109	0.668 107	0.398 108
Hao Pan, Shilin Liu, Yang Liu, Xin Tong: Convolutional Neural Networks on 3D Surfaces Using Parallel Frames.
Tangent Convolutions	0.438 112	0.437 115	0.646 101	0.474 110	0.369 108	0.645 107	0.353 98	0.258 114	0.282 115	0.279 111	0.918 101	0.298 106	0.147 105	0.283 109	0.294 107	0.487 101	0.562 106	0.427 110	0.619 111	0.633 111	0.352 112
Maxim Tatarchenko, Jaesik Park, Vladlen Koltun, Qian-Yi Zhou: Tangent convolutions for dense prediction in 3d. CVPR 2018
3DWSSS	0.425 113	0.525 108	0.647 100	0.522 106	0.324 113	0.488 117	0.077 118	0.712 76	0.353 110	0.401 98	0.636 118	0.281 108	0.176 93	0.340 105	0.565 87	0.175 118	0.551 108	0.398 112	0.370 118	0.602 113	0.361 111

SPLAT Net	0.393 114	0.472 114	0.511 114	0.606 99	0.311 115	0.656 104	0.245 111	0.405 108	0.328 113	0.197 116	0.927 95	0.227 114	0.000 119	0.001 119	0.249 109	0.271 117	0.510 112	0.383 114	0.593 113	0.699 104	0.267 115
Hang Su, Varun Jampani, Deqing Sun, Subhransu Maji, Evangelos Kalogerakis, Ming-Hsuan Yang, Jan Kautz: SPLATNet: Sparse Lattice Networks for Point Cloud Processing. CVPR 2018
ScanNet+FTSDF	0.383 115	0.297 117	0.491 115	0.432 114	0.358 111	0.612 112	0.274 108	0.116 116	0.411 106	0.265 113	0.904 105	0.229 113	0.079 112	0.250 110	0.185 115	0.320 115	0.510 112	0.385 113	0.548 114	0.597 116	0.394 109

PointNet++	0.339 116	0.584 102	0.478 116	0.458 112	0.256 117	0.360 118	0.250 109	0.247 115	0.278 116	0.261 114	0.677 117	0.183 116	0.117 107	0.212 116	0.145 117	0.364 111	0.346 118	0.232 118	0.548 114	0.523 117	0.252 116
Charles R. Qi, Li Yi, Hao Su, Leonidas J. Guibas: pointnet++: deep hierarchical feature learning on point sets in a metric space.
SSC-UNet	0.308 117	0.353 116	0.290 118	0.278 118	0.166 118	0.553 115	0.169 116	0.286 113	0.147 118	0.148 118	0.908 103	0.182 117	0.064 113	0.023 118	0.018 119	0.354 113	0.363 116	0.345 116	0.546 116	0.685 105	0.278 114

ScanNet	0.306 118	0.203 118	0.366 117	0.501 107	0.311 115	0.524 116	0.211 115	0.002 119	0.342 112	0.189 117	0.786 115	0.145 118	0.102 108	0.245 111	0.152 116	0.318 116	0.348 117	0.300 117	0.460 117	0.437 118	0.182 118
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17
ERROR	0.054 119	0.000 119	0.041 119	0.172 119	0.030 119	0.062 119	0.001 119	0.035 118	0.004 119	0.051 119	0.143 119	0.019 119	0.003 118	0.041 117	0.050 118	0.003 119	0.054 119	0.018 119	0.005 119	0.264 119	0.082 119

This table lists the benchmark results for the 3D semantic instance scenario.

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

PointRel	0.622 1	0.926 8	0.710 2	0.541 9	0.502 2	0.772 5	0.314 4	0.598 11	0.425 7	0.504 8	0.565 1	0.650 5	0.716 2	0.809 7	0.476 11	0.747 4	0.618 1	0.963 3	0.364 18
: Relation3D (PointRel): Enhancing Relation Modeling for Point Cloud Instance Segmentation.
SIM3D	0.617 2	0.952 4	0.629 15	0.539 10	0.426 14	0.768 9	0.302 6	0.681 2	0.425 8	0.473 14	0.511 14	0.701 1	0.717 1	0.821 6	0.467 14	0.774 1	0.559 13	0.914 16	0.448 2

Spherical Mask(CtoF)	0.616 3	0.946 5	0.654 11	0.555 5	0.434 11	0.769 8	0.271 10	0.604 8	0.447 4	0.505 6	0.549 2	0.698 2	0.716 2	0.775 15	0.480 8	0.747 5	0.575 9	0.925 12	0.436 4

EV3D	0.615 4	0.946 5	0.652 12	0.555 5	0.433 12	0.773 4	0.271 11	0.604 8	0.447 4	0.506 5	0.544 5	0.698 2	0.716 2	0.775 15	0.480 8	0.747 5	0.572 11	0.925 12	0.435 5

ExtMask3D	0.598 5	0.852 15	0.692 6	0.433 29	0.461 6	0.791 2	0.264 12	0.488 34	0.493 1	0.508 4	0.528 13	0.594 11	0.706 6	0.791 9	0.483 6	0.734 9	0.595 3	0.911 18	0.437 3

MAFT	0.596 6	0.889 13	0.721 1	0.448 22	0.460 7	0.768 10	0.251 14	0.558 21	0.408 9	0.504 7	0.539 7	0.616 9	0.618 10	0.858 3	0.482 7	0.684 18	0.551 16	0.931 11	0.450 1

UniPerception	0.588 7	0.963 3	0.667 9	0.493 14	0.472 5	0.750 13	0.229 17	0.528 27	0.468 3	0.498 11	0.542 6	0.643 6	0.530 19	0.661 36	0.463 15	0.695 17	0.599 2	0.972 1	0.420 6

MG-Former	0.587 8	0.852 15	0.639 14	0.454 21	0.393 19	0.758 12	0.338 2	0.572 16	0.480 2	0.527 2	0.491 20	0.671 4	0.527 20	0.867 1	0.485 5	0.601 29	0.590 6	0.938 10	0.390 10

InsSSM	0.586 9	1.000 1	0.593 19	0.440 25	0.480 3	0.771 6	0.345 1	0.437 38	0.444 6	0.495 12	0.548 4	0.579 14	0.621 9	0.720 27	0.409 21	0.712 11	0.593 4	0.960 4	0.395 8
Lei Yao, Yi Wang, Moyun Liu, Lap-Pui Chau: SGIFormer: Semantic-guided and Geometric-enhanced Interleaving Transformer for 3D Instance Segmentation. TCSVT, 2024
Queryformer	0.583 10	0.926 8	0.702 4	0.393 35	0.504 1	0.733 19	0.276 9	0.527 28	0.373 15	0.479 13	0.534 9	0.533 21	0.697 7	0.720 28	0.436 19	0.745 7	0.592 5	0.958 5	0.363 19

KmaxOneFormerNet	0.581 11	0.745 26	0.692 7	0.551 7	0.458 8	0.798 1	0.264 13	0.531 26	0.369 17	0.513 3	0.531 12	0.632 7	0.494 23	0.798 8	0.567 2	0.648 22	0.558 15	0.950 7	0.362 20

Competitor-SPFormer	0.580 12	0.721 32	0.705 3	0.593 3	0.444 10	0.786 3	0.286 7	0.564 19	0.376 14	0.498 10	0.534 10	0.546 19	0.390 42	0.785 11	0.577 1	0.708 15	0.579 8	0.954 6	0.388 11

PBNet	0.573 13	0.926 8	0.575 24	0.619 1	0.472 4	0.736 17	0.239 16	0.487 35	0.383 13	0.459 17	0.506 17	0.533 20	0.585 12	0.767 17	0.404 22	0.717 10	0.559 14	0.969 2	0.381 14
W.Zhao, Y.Yan, C.Yang, J.Ye,X.Yang,K.Huang: Divide and Conquer: 3D Instance Segmentation With Point-Wise Binarization. ICCV 2023
TST3D	0.569 14	0.778 23	0.675 8	0.598 2	0.451 9	0.727 20	0.280 8	0.476 37	0.395 10	0.472 15	0.457 26	0.583 12	0.580 14	0.777 12	0.462 17	0.735 8	0.547 18	0.919 15	0.333 26
Duc Tran Dang Trung, Byeongkeun Kang, Yeejin Lee: MSTA3D: Multi-scale Twin-attention for 3D Instance Segmentation. ACM Multimedia 2024
Mask3D	0.566 15	0.926 8	0.597 18	0.408 32	0.420 16	0.737 16	0.239 15	0.598 11	0.386 12	0.458 18	0.549 2	0.568 17	0.716 2	0.601 42	0.480 8	0.646 23	0.575 9	0.922 14	0.364 17
Jonas Schult, Francis Engelmann, Alexander Hermans, Or Litany, Siyu Tang, Bastian Leibe: Mask3D for 3D Semantic Instance Segmentation. ICRA 2023
OneFormer3D	0.566 15	0.781 22	0.697 5	0.562 4	0.431 13	0.770 7	0.331 3	0.400 44	0.373 16	0.529 1	0.504 18	0.568 16	0.475 26	0.732 25	0.470 12	0.762 2	0.550 17	0.871 33	0.379 15
Maxim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: OneFormer3D: One Transformer for Unified Point Cloud Segmentation.
ISBNet	0.559 17	0.939 7	0.655 10	0.383 38	0.426 15	0.763 11	0.180 19	0.534 25	0.386 11	0.499 9	0.509 16	0.621 8	0.427 36	0.704 31	0.467 13	0.649 21	0.571 12	0.948 8	0.401 7
Tuan Duc Ngo, Binh-Son Hua, Khoi Nguyen: ISBNet: a 3D Point Cloud Instance Segmentation Network with Instance-aware Sampling and Box-aware Dynamic Convolution. CVPR 2023
GraphCut	0.552 18	1.000 1	0.611 17	0.438 26	0.392 20	0.714 21	0.139 22	0.598 13	0.327 20	0.389 21	0.510 15	0.598 10	0.427 37	0.754 20	0.463 16	0.761 3	0.588 7	0.903 21	0.329 27

SPFormer	0.549 19	0.745 26	0.640 13	0.484 15	0.395 18	0.739 15	0.311 5	0.566 18	0.335 19	0.468 16	0.492 19	0.555 18	0.478 25	0.747 22	0.436 18	0.712 12	0.540 19	0.893 25	0.343 25
Sun Jiahao, Qing Chunmei, Tan Junpeng, Xu Xiangmin: Superpoint Transformer for 3D Scene Instance Segmentation. AAAI 2023 [Oral]
DKNet	0.532 20	0.815 19	0.624 16	0.517 11	0.377 22	0.749 14	0.107 24	0.509 31	0.304 22	0.437 19	0.475 21	0.581 13	0.539 17	0.775 14	0.339 27	0.640 25	0.506 22	0.901 22	0.385 13
Yizheng Wu, Min Shi, Shuaiyuan Du, Hao Lu, Zhiguo Cao, Weicai Zhong: 3D Instances as 1D Kernels. ECCV 2022
IPCA-Inst	0.520 21	0.889 13	0.551 28	0.548 8	0.418 17	0.665 31	0.064 33	0.585 14	0.260 30	0.277 35	0.471 23	0.500 22	0.644 8	0.785 10	0.369 23	0.591 32	0.511 20	0.878 30	0.362 21

SoftGroup++	0.513 22	0.704 34	0.578 23	0.398 34	0.363 28	0.704 22	0.061 34	0.647 5	0.297 27	0.378 24	0.537 8	0.343 25	0.614 11	0.828 5	0.295 32	0.710 14	0.505 24	0.875 32	0.394 9

SSTNet	0.506 23	0.738 30	0.549 29	0.497 13	0.316 33	0.693 25	0.178 20	0.377 47	0.198 36	0.330 26	0.463 25	0.576 15	0.515 21	0.857 4	0.494 3	0.637 26	0.457 28	0.943 9	0.290 36
Zhihao Liang, Zhihao Li, Songcen Xu, Mingkui Tan, Kui Jia: Instance Segmentation in 3D Scenes using Semantic Superpoint Tree Networks. ICCV2021
SoftGroup	0.504 24	0.667 41	0.579 21	0.372 40	0.381 21	0.694 24	0.072 30	0.677 3	0.303 23	0.387 22	0.531 11	0.319 29	0.582 13	0.754 19	0.318 28	0.643 24	0.492 25	0.907 20	0.388 12
Thang Vu, Kookhoi Kim, Tung M. Luu, Xuan Thanh Nguyen, Chang D. Yoo: SoftGroup for 3D Instance Segmentaiton on Point Clouds. CVPR 2022 [Oral]
DANCENET	0.504 24	0.926 8	0.579 20	0.472 17	0.367 25	0.626 41	0.165 21	0.432 39	0.221 32	0.408 20	0.449 28	0.411 23	0.564 15	0.746 23	0.421 20	0.707 16	0.438 31	0.846 41	0.288 37

TD3D	0.489 26	0.852 15	0.511 38	0.434 27	0.322 32	0.735 18	0.101 27	0.512 30	0.355 18	0.349 25	0.468 24	0.283 33	0.514 22	0.676 35	0.268 37	0.671 19	0.510 21	0.908 19	0.329 28
Maksim Kolodiazhnyi, Anna Vorontsova, Anton Konushin, Danila Rukhovich: Top-Down Beats Bottom-Up in 3D Instance Segmentation. WACV 2024
OccuSeg+instance	0.486 27	0.802 21	0.536 31	0.428 30	0.369 24	0.702 23	0.205 18	0.331 52	0.301 24	0.379 23	0.474 22	0.327 26	0.437 31	0.862 2	0.485 4	0.601 30	0.394 39	0.846 43	0.273 40
Lei Han, Tian Zheng, Lan Xu, Lu Fang: OccuSeg: Occupancy-aware 3D Instance Segmentation. CVPR2020
TopoSeg	0.479 28	0.704 34	0.564 25	0.467 19	0.366 26	0.633 39	0.068 31	0.554 22	0.262 29	0.328 27	0.447 29	0.323 27	0.534 18	0.722 26	0.288 34	0.614 27	0.482 26	0.912 17	0.358 23

DualGroup	0.469 29	0.815 19	0.552 27	0.398 33	0.374 23	0.683 27	0.130 23	0.539 24	0.310 21	0.327 28	0.407 32	0.276 34	0.447 30	0.535 46	0.342 26	0.659 20	0.455 29	0.900 24	0.301 32

SSEC	0.465 30	0.667 41	0.578 22	0.502 12	0.362 29	0.641 38	0.035 43	0.605 7	0.291 28	0.323 29	0.451 27	0.296 31	0.417 40	0.677 34	0.245 41	0.501 50	0.506 23	0.900 23	0.366 16

HAIS	0.457 31	0.704 34	0.561 26	0.457 20	0.364 27	0.673 28	0.046 42	0.547 23	0.194 37	0.308 30	0.426 30	0.288 32	0.454 29	0.711 29	0.262 38	0.563 40	0.434 33	0.889 27	0.344 24
Shaoyu Chen, Jiemin Fang, Qian Zhang, Wenyu Liu, Xinggang Wang: Hierarchical Aggregation for 3D Instance Segmentation. ICCV 2021
DD-UNet+Group	0.436 32	0.630 49	0.508 41	0.480 16	0.310 35	0.624 43	0.065 32	0.638 6	0.174 38	0.256 39	0.384 36	0.194 46	0.428 34	0.759 18	0.289 33	0.574 37	0.400 37	0.849 40	0.291 35
H. Liu, R. Liu, K. Yang, J. Zhang, K. Peng, R. Stiefelhagen: HIDA: Towards Holistic Indoor Understanding for the Visually Impaired via Semantic Instance Segmentation with a Wearable Solid-State LiDAR Sensor. ICCVW 2021
INS-Conv-instance	0.435 33	0.716 33	0.495 43	0.355 42	0.331 30	0.689 26	0.102 26	0.394 46	0.208 35	0.280 33	0.395 34	0.250 37	0.544 16	0.741 24	0.309 30	0.536 46	0.391 40	0.842 46	0.258 44

Mask-Group	0.434 34	0.778 23	0.516 36	0.471 18	0.330 31	0.658 32	0.029 45	0.526 29	0.249 31	0.256 38	0.400 33	0.309 30	0.384 45	0.296 62	0.368 24	0.575 36	0.425 34	0.877 31	0.362 22
Min Zhong, Xinghao Chen, Xiaokang Chen, Gang Zeng, Yunhe Wang: MaskGroup: Hierarchical Point Grouping and Masking for 3D Instance Segmentation. ICME 2022
Box2Mask	0.433 35	0.741 28	0.463 48	0.433 28	0.283 38	0.625 42	0.103 25	0.298 57	0.125 47	0.260 37	0.424 31	0.322 28	0.472 27	0.701 32	0.363 25	0.711 13	0.309 56	0.882 28	0.272 42
Julian Chibane, Francis Engelmann, Tuan Anh Tran, Gerard Pons-Moll: Box2Mask: Weakly Supervised 3D Semantic Instance Segmentation Using Bounding Boxes. ECCV 2022
RPGN	0.428 36	0.630 49	0.508 40	0.367 41	0.249 45	0.658 33	0.016 53	0.673 4	0.131 45	0.234 42	0.383 37	0.270 35	0.434 32	0.748 21	0.274 36	0.609 28	0.406 36	0.842 45	0.267 43
Shichao Dong, Guosheng Lin, Tzu-Yi Hung: Learning Regional Purity for Instance Segmentation on 3D Point Clouds. ECCV 2022
DENet	0.413 37	0.741 28	0.520 33	0.237 53	0.284 37	0.523 52	0.097 28	0.691 1	0.138 42	0.209 52	0.229 54	0.238 40	0.390 43	0.707 30	0.310 29	0.448 57	0.470 27	0.892 26	0.310 30

PointGroup	0.407 38	0.639 48	0.496 42	0.415 31	0.243 47	0.645 37	0.021 50	0.570 17	0.114 48	0.211 50	0.359 39	0.217 44	0.428 35	0.660 37	0.256 39	0.562 41	0.341 48	0.860 36	0.291 34
Li Jiang, Hengshuang Zhao, Shaoshuai Shi, Shu Liu, Chi-Wing Fu, Jiaya Jia: PointGroup: Dual-Set Point Grouping for 3D Instance Segmentation. CVPR 2020 [oral]
CSC-Pretrained	0.405 39	0.738 30	0.465 47	0.331 46	0.205 51	0.655 34	0.051 38	0.601 10	0.092 52	0.211 51	0.329 42	0.198 45	0.459 28	0.775 13	0.195 48	0.524 48	0.400 38	0.878 29	0.184 53

PE	0.396 40	0.667 41	0.467 46	0.446 24	0.243 46	0.624 44	0.022 49	0.577 15	0.106 49	0.219 45	0.340 40	0.239 39	0.487 24	0.475 53	0.225 43	0.541 45	0.350 46	0.818 48	0.273 41
Biao Zhang, Peter Wonka: Point Cloud Instance Segmentation using Probabilistic Embeddings. CVPR 2021
Dyco3D	0.395 41	0.642 47	0.518 35	0.447 23	0.259 44	0.666 30	0.050 39	0.251 62	0.166 39	0.231 43	0.362 38	0.232 41	0.331 48	0.535 45	0.229 42	0.587 33	0.438 32	0.850 38	0.317 29
Tong He; Chunhua Shen; Anton van den Hengel: DyCo3D: Robust Instance Segmentation of 3D Point Clouds through Dynamic Convolution. CVPR2021
OSIS	0.392 42	0.778 23	0.530 32	0.220 55	0.278 39	0.567 49	0.083 29	0.330 53	0.299 25	0.270 36	0.310 45	0.143 52	0.260 52	0.624 40	0.277 35	0.568 39	0.361 44	0.865 35	0.301 31

AOIA	0.387 43	0.704 34	0.515 37	0.385 37	0.225 50	0.669 29	0.005 60	0.482 36	0.126 46	0.181 55	0.269 51	0.221 43	0.426 38	0.478 52	0.218 44	0.592 31	0.371 42	0.851 37	0.242 46

SSEN	0.384 44	0.852 15	0.494 44	0.192 56	0.226 49	0.648 36	0.022 48	0.398 45	0.299 26	0.277 34	0.317 44	0.231 42	0.194 59	0.514 49	0.196 46	0.586 34	0.444 30	0.843 44	0.184 52
Dongsu Zhang, Junha Chun, Sang Kyun Cha, Young Min Kim: Spatial Semantic Embedding Network: Fast 3D Instance Segmentation with Deep Metric Learning. Arxiv
Mask3D_evaluation	0.382 45	0.593 51	0.520 34	0.390 36	0.314 34	0.600 45	0.018 52	0.287 60	0.151 41	0.281 32	0.387 35	0.169 50	0.429 33	0.654 38	0.172 52	0.578 35	0.384 41	0.670 59	0.278 39

PCJC	0.375 46	0.704 34	0.542 30	0.284 50	0.197 53	0.649 35	0.006 57	0.426 40	0.138 43	0.242 40	0.304 46	0.183 49	0.388 44	0.629 39	0.141 59	0.546 44	0.344 47	0.738 54	0.283 38

ClickSeg_Instance	0.366 47	0.654 45	0.375 52	0.184 57	0.302 36	0.592 47	0.050 40	0.300 56	0.093 51	0.283 31	0.277 48	0.249 38	0.426 39	0.615 41	0.299 31	0.504 49	0.367 43	0.832 47	0.191 51

SphereSeg	0.357 48	0.651 46	0.411 50	0.345 43	0.264 43	0.630 40	0.059 35	0.289 59	0.212 33	0.240 41	0.336 41	0.158 51	0.305 49	0.557 43	0.159 55	0.455 56	0.341 49	0.726 56	0.294 33

3D-MPA	0.355 49	0.457 61	0.484 45	0.299 48	0.277 40	0.591 48	0.047 41	0.332 50	0.212 34	0.217 46	0.278 47	0.193 47	0.413 41	0.410 56	0.195 47	0.574 38	0.352 45	0.849 39	0.213 49
Francis Engelmann, Martin Bokeloh, Alireza Fathi, Bastian Leibe, Matthias Nießner: 3D-MPA: Multi Proposal Aggregation for 3D Semantic Instance Segmentation. CVPR 2020
NeuralBF	0.353 50	0.593 51	0.511 39	0.375 39	0.264 42	0.597 46	0.008 55	0.332 51	0.160 40	0.229 44	0.274 50	0.000 73	0.206 56	0.678 33	0.155 56	0.485 52	0.422 35	0.816 49	0.254 45
Weiwei Sun, Daniel Rebain, Renjie Liao, Vladimir Tankovich, Soroosh Yazdani, Kwang Moo Yi, Andrea Tagliasacchi: NeuralBF: Neural Bilateral Filtering for Top-down Instance Segmentation on Point Clouds. WACV 2023
RWSeg	0.348 51	0.475 58	0.456 49	0.320 47	0.275 41	0.476 54	0.020 51	0.491 33	0.056 59	0.212 49	0.320 43	0.261 36	0.302 50	0.520 47	0.182 50	0.557 42	0.285 58	0.867 34	0.197 50

GICN	0.341 52	0.580 53	0.371 53	0.344 44	0.198 52	0.469 55	0.052 37	0.564 20	0.093 50	0.212 48	0.212 56	0.127 54	0.347 47	0.537 44	0.206 45	0.525 47	0.329 51	0.729 55	0.241 47

One_Thing_One_Click	0.326 53	0.472 59	0.361 54	0.232 54	0.183 54	0.555 50	0.000 66	0.498 32	0.038 61	0.195 53	0.226 55	0.362 24	0.168 60	0.469 54	0.251 40	0.553 43	0.335 50	0.846 42	0.117 61
Zhengzhe Liu, Xiaojuan Qi, Chi-Wing Fu: One Thing One Click: A Self-Training Approach for Weakly Supervised 3D Semantic Segmentation. CVPR 2021
Occipital-SCS	0.320 54	0.679 40	0.352 55	0.334 45	0.229 48	0.436 56	0.025 46	0.412 43	0.058 57	0.161 60	0.240 53	0.085 56	0.262 51	0.496 51	0.187 49	0.467 54	0.328 52	0.775 50	0.231 48

Sparse R-CNN	0.292 55	0.704 34	0.213 65	0.153 59	0.154 56	0.551 51	0.053 36	0.212 63	0.132 44	0.174 57	0.274 49	0.070 58	0.363 46	0.441 55	0.176 51	0.424 59	0.234 60	0.758 52	0.161 57

MTML	0.282 56	0.577 54	0.380 51	0.182 58	0.107 62	0.430 57	0.001 63	0.422 41	0.057 58	0.179 56	0.162 59	0.070 59	0.229 54	0.511 50	0.161 53	0.491 51	0.313 53	0.650 62	0.162 55
Jean Lahoud, Bernard Ghanem, Marc Pollefeys, Martin R. Oswald: 3D Instance Segmentation via Multi-task Metric Learning. ICCV 2019 [oral]
SALoss-ResNet	0.262 57	0.667 41	0.335 56	0.067 66	0.123 60	0.427 58	0.022 47	0.280 61	0.058 56	0.216 47	0.211 57	0.039 62	0.142 62	0.519 48	0.106 63	0.338 63	0.310 55	0.721 57	0.138 58
Zhidong Liang, Ming Yang, Hao Li, Chunxiang Wang: 3D Instance Embedding Learning With a Structure-Aware Loss Function for Point Cloud Segmentation. IEEE Robotics and Automation Letters (IROS2020)
MASC	0.254 58	0.463 60	0.249 64	0.113 60	0.167 55	0.412 60	0.000 65	0.374 48	0.073 53	0.173 58	0.243 52	0.130 53	0.228 55	0.368 58	0.160 54	0.356 61	0.208 61	0.711 58	0.136 59
Chen Liu, Yasutaka Furukawa: MASC: Multi-scale Affinity with Sparse Convolution for 3D Instance Segmentation.
3D-BoNet	0.253 59	0.519 56	0.324 59	0.251 52	0.137 59	0.345 65	0.031 44	0.419 42	0.069 54	0.162 59	0.131 61	0.052 60	0.202 58	0.338 60	0.147 58	0.301 66	0.303 57	0.651 61	0.178 54
Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen Wang, Andrew Markham, Niki Trigoni: Learning Object Bounding Boxes for 3D Instance Segmentation on Point Clouds. NeurIPS 2019 Spotlight
SPG_WSIS	0.251 60	0.380 63	0.274 62	0.289 49	0.144 57	0.413 59	0.000 66	0.311 54	0.065 55	0.113 62	0.130 62	0.029 65	0.204 57	0.388 57	0.108 62	0.459 55	0.311 54	0.769 51	0.127 60

SegGroup_ins	0.246 61	0.556 55	0.335 57	0.062 68	0.115 61	0.490 53	0.000 66	0.297 58	0.018 65	0.186 54	0.142 60	0.083 57	0.233 53	0.216 64	0.153 57	0.469 53	0.251 59	0.744 53	0.083 64
An Tao, Yueqi Duan, Yi Wei, Jiwen Lu, Jie Zhou: SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation. TIP 2022
PanopticFusion-inst	0.214 62	0.250 68	0.330 58	0.275 51	0.103 63	0.228 71	0.000 66	0.345 49	0.024 63	0.088 64	0.203 58	0.186 48	0.167 61	0.367 59	0.125 60	0.221 69	0.112 71	0.666 60	0.162 56
Gaku Narita, Takashi Seno, Tomoya Ishikawa, Yohsuke Kaji: PanopticFusion: Online Volumetric Semantic Mapping at the Level of Stuff and Things. IROS 2019 (to appear)
UNet-backbone	0.161 63	0.519 56	0.259 63	0.084 62	0.059 65	0.325 67	0.002 61	0.093 68	0.009 67	0.077 66	0.064 65	0.045 61	0.044 69	0.161 66	0.045 65	0.331 64	0.180 63	0.566 63	0.033 73

3D-SIS	0.161 63	0.407 62	0.155 70	0.068 65	0.043 69	0.346 64	0.001 62	0.134 65	0.005 68	0.088 63	0.106 64	0.037 63	0.135 64	0.321 61	0.028 69	0.339 62	0.116 70	0.466 66	0.093 63
Ji Hou, Angela Dai, Matthias Niessner: 3D-SIS: 3D Semantic Instance Segmentation of RGB-D Scans. CVPR 2019
R-PointNet	0.158 65	0.356 64	0.173 68	0.113 61	0.140 58	0.359 61	0.012 54	0.023 71	0.039 60	0.134 61	0.123 63	0.008 69	0.089 65	0.149 67	0.117 61	0.221 68	0.128 68	0.563 64	0.094 62

Region-18class	0.146 66	0.175 72	0.321 60	0.080 63	0.062 64	0.357 62	0.000 66	0.307 55	0.002 70	0.066 67	0.044 67	0.000 73	0.018 71	0.036 72	0.054 64	0.447 58	0.133 66	0.472 65	0.060 68

SemRegionNet-20cls	0.121 67	0.296 66	0.203 66	0.071 64	0.058 66	0.349 63	0.000 66	0.150 64	0.019 64	0.054 69	0.034 70	0.017 68	0.052 67	0.042 71	0.013 72	0.209 70	0.183 62	0.371 67	0.057 69

Hier3D	0.117 68	0.222 70	0.161 69	0.054 70	0.027 71	0.289 68	0.000 66	0.124 66	0.001 72	0.079 65	0.061 66	0.027 66	0.141 63	0.240 63	0.005 73	0.310 65	0.129 67	0.153 73	0.081 65
Tan: HCFS3D: Hierarchical Coupled Feature Selection Network for 3D Semantic and Instance Segmentation.
3D-BEVIS	0.117 68	0.250 68	0.308 61	0.020 72	0.009 74	0.269 70	0.006 58	0.008 72	0.029 62	0.037 72	0.014 73	0.003 71	0.036 70	0.147 68	0.042 67	0.381 60	0.118 69	0.362 68	0.069 67
Cathrin Elich, Francis Engelmann, Jonas Schult, Theodora Kontogianni, Bastian Leibe: 3D-BEVIS: Birds-Eye-View Instance Segmentation.
tmp	0.113 70	0.333 65	0.151 71	0.056 69	0.053 67	0.344 66	0.000 66	0.105 67	0.016 66	0.049 70	0.035 69	0.020 67	0.053 66	0.048 70	0.013 71	0.183 72	0.173 64	0.344 70	0.054 70

Sem_Recon_ins	0.098 71	0.295 67	0.187 67	0.015 73	0.036 70	0.213 72	0.005 59	0.038 70	0.003 69	0.056 68	0.037 68	0.036 64	0.015 72	0.051 69	0.044 66	0.209 71	0.098 72	0.354 69	0.071 66

ASIS	0.085 72	0.037 73	0.080 73	0.066 67	0.047 68	0.282 69	0.000 66	0.052 69	0.002 71	0.047 71	0.026 71	0.001 72	0.046 68	0.194 65	0.031 68	0.264 67	0.140 65	0.167 72	0.047 72

Sgpn_scannet	0.049 73	0.023 74	0.134 72	0.031 71	0.013 73	0.144 73	0.006 56	0.008 73	0.000 73	0.028 73	0.017 72	0.003 70	0.009 74	0.000 73	0.021 70	0.122 73	0.095 73	0.175 71	0.054 71

MaskRCNN 2d->3d Proj	0.022 74	0.185 71	0.000 74	0.000 74	0.015 72	0.000 74	0.000 64	0.006 74	0.000 73	0.010 74	0.006 74	0.107 55	0.012 73	0.000 73	0.002 74	0.027 74	0.004 74	0.022 74	0.001 74

Method	avg iou	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	floor	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	wall	window

Virtual MVFusion (R)	0.745 1	0.861 1	0.839 1	0.881 1	0.672 2	0.512 1	0.422 17	0.898 1	0.723 1	0.714 1	0.954 2	0.454 1	0.509 1	0.773 1	0.895 1	0.756 1	0.820 1	0.653 1	0.935 1	0.891 1	0.728 1
Abhijit Kundu, Xiaoqi Yin, Alireza Fathi, David Ross, Brian Brewington, Thomas Funkhouser, Caroline Pantofaru: Virtual Multi-view Fusion for 3D Semantic Segmentation. ECCV 2020
BPNet_2D	0.670 2	0.822 3	0.795 3	0.836 2	0.659 3	0.481 2	0.451 13	0.769 4	0.656 3	0.567 4	0.931 3	0.395 6	0.390 5	0.700 4	0.534 4	0.689 10	0.770 2	0.574 3	0.865 9	0.831 3	0.675 5
Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia and Tien-Tsin Wong: Bidirectional Projection Network for Cross Dimension Scene Understanding. CVPR 2021 (Oral)
MVF-GNN（2D）	0.636 3	0.606 14	0.794 4	0.434 16	0.688 1	0.337 8	0.464 12	0.798 3	0.632 5	0.589 3	0.908 8	0.420 2	0.329 12	0.743 2	0.594 2	0.738 2	0.676 5	0.527 4	0.906 2	0.818 6	0.715 3

CU-Hybrid-2D Net	0.636 3	0.825 2	0.820 2	0.179 23	0.648 4	0.463 3	0.549 2	0.742 7	0.676 2	0.628 2	0.961 1	0.420 2	0.379 6	0.684 8	0.381 18	0.732 3	0.723 3	0.599 2	0.827 16	0.851 2	0.634 7

CMX	0.613 5	0.681 8	0.725 12	0.502 12	0.634 6	0.297 18	0.478 10	0.830 2	0.651 4	0.537 7	0.924 4	0.375 7	0.315 14	0.686 7	0.451 14	0.714 5	0.543 21	0.504 6	0.894 7	0.823 5	0.688 4

DMMF_3d	0.605 6	0.651 9	0.744 10	0.782 3	0.637 5	0.387 4	0.536 3	0.732 8	0.590 7	0.540 6	0.856 21	0.359 11	0.306 15	0.596 14	0.539 3	0.627 20	0.706 4	0.497 8	0.785 21	0.757 19	0.476 22

EMSANet	0.600 7	0.716 4	0.746 9	0.395 18	0.614 9	0.382 5	0.523 4	0.713 11	0.571 11	0.503 10	0.922 6	0.404 5	0.397 4	0.655 9	0.400 16	0.626 21	0.663 6	0.469 13	0.900 4	0.827 4	0.577 14
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
MCA-Net	0.595 8	0.533 20	0.756 8	0.746 4	0.590 10	0.334 10	0.506 7	0.670 15	0.587 8	0.500 12	0.905 10	0.366 10	0.352 9	0.601 13	0.506 8	0.669 16	0.648 9	0.501 7	0.839 15	0.769 15	0.516 21

RFBNet	0.592 9	0.616 11	0.758 7	0.659 5	0.581 11	0.330 11	0.469 11	0.655 18	0.543 14	0.524 8	0.924 4	0.355 13	0.336 11	0.572 17	0.479 10	0.671 14	0.648 9	0.480 10	0.814 19	0.814 7	0.614 10

FAN_NV_RVC	0.586 10	0.510 21	0.764 6	0.079 26	0.620 8	0.330 11	0.494 8	0.753 5	0.573 9	0.556 5	0.884 16	0.405 4	0.303 16	0.718 3	0.452 13	0.672 13	0.658 7	0.509 5	0.898 5	0.813 8	0.727 2

DCRedNet	0.583 11	0.682 7	0.723 13	0.542 11	0.510 20	0.310 15	0.451 13	0.668 16	0.549 13	0.520 9	0.920 7	0.375 7	0.446 2	0.528 20	0.417 15	0.670 15	0.577 18	0.478 11	0.862 10	0.806 9	0.628 9

MIX6D_RVC	0.582 12	0.695 5	0.687 17	0.225 21	0.632 7	0.328 13	0.550 1	0.748 6	0.623 6	0.494 15	0.890 14	0.350 15	0.254 23	0.688 6	0.454 12	0.716 4	0.597 17	0.489 9	0.881 8	0.768 16	0.575 15

SSMA	0.577 13	0.695 5	0.716 15	0.439 14	0.563 14	0.314 14	0.444 15	0.719 9	0.551 12	0.503 10	0.887 15	0.346 16	0.348 10	0.603 12	0.353 20	0.709 6	0.600 15	0.457 14	0.901 3	0.786 11	0.599 13
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
DMMF	0.567 14	0.623 10	0.767 5	0.238 20	0.571 13	0.347 6	0.413 19	0.719 9	0.472 20	0.418 22	0.895 13	0.357 12	0.260 22	0.696 5	0.523 7	0.666 17	0.642 11	0.437 18	0.895 6	0.793 10	0.603 12

UNIV_CNP_RVC_UE	0.566 15	0.569 19	0.686 19	0.435 15	0.524 17	0.294 19	0.421 18	0.712 12	0.543 14	0.463 17	0.872 17	0.320 17	0.363 8	0.611 11	0.477 11	0.686 11	0.627 12	0.443 17	0.862 10	0.775 14	0.639 6

EMSAFormer	0.564 16	0.581 16	0.736 11	0.564 10	0.546 16	0.219 23	0.517 5	0.675 14	0.486 19	0.427 21	0.904 11	0.352 14	0.320 13	0.589 15	0.528 5	0.708 7	0.464 24	0.413 22	0.847 14	0.786 11	0.611 11

SN_RN152pyrx8_RVC	0.546 17	0.572 17	0.663 21	0.638 7	0.518 18	0.298 17	0.366 24	0.633 21	0.510 17	0.446 19	0.864 19	0.296 20	0.267 19	0.542 19	0.346 21	0.704 8	0.575 19	0.431 19	0.853 13	0.766 17	0.630 8

UDSSEG_RVC	0.545 18	0.610 13	0.661 22	0.588 8	0.556 15	0.268 21	0.482 9	0.642 20	0.572 10	0.475 16	0.836 23	0.312 18	0.367 7	0.630 10	0.189 23	0.639 19	0.495 23	0.452 15	0.826 17	0.756 20	0.541 17

segfomer with 6d	0.542 19	0.594 15	0.687 17	0.146 24	0.579 12	0.308 16	0.515 6	0.703 13	0.472 20	0.498 13	0.868 18	0.369 9	0.282 17	0.589 15	0.390 17	0.701 9	0.556 20	0.416 21	0.860 12	0.759 18	0.539 19

FuseNet	0.535 20	0.570 18	0.681 20	0.182 22	0.512 19	0.290 20	0.431 16	0.659 17	0.504 18	0.495 14	0.903 12	0.308 19	0.428 3	0.523 21	0.365 19	0.676 12	0.621 14	0.470 12	0.762 22	0.779 13	0.541 17
Caner Hazirbas, Lingni Ma, Csaba Domokos, Daniel Cremers: FuseNet: Incorporating Depth into Semantic Segmentation via Fusion-based CNN Architecture. ACCV 2016
AdapNet++	0.503 21	0.613 12	0.722 14	0.418 17	0.358 26	0.337 8	0.370 23	0.479 24	0.443 22	0.368 24	0.907 9	0.207 23	0.213 25	0.464 24	0.525 6	0.618 22	0.657 8	0.450 16	0.788 20	0.721 23	0.408 25
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. International Journal of Computer Vision, 2019
3DMV (2d proj)	0.498 22	0.481 24	0.612 23	0.579 9	0.456 22	0.343 7	0.384 21	0.623 22	0.525 16	0.381 23	0.845 22	0.254 22	0.264 21	0.557 18	0.182 24	0.581 24	0.598 16	0.429 20	0.760 23	0.661 25	0.446 24
Angela Dai, Matthias Niessner: 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation. ECCV'18
MSeg1080_RVC	0.485 23	0.505 22	0.709 16	0.092 25	0.427 23	0.241 22	0.411 20	0.654 19	0.385 26	0.457 18	0.861 20	0.053 26	0.279 18	0.503 22	0.481 9	0.645 18	0.626 13	0.365 24	0.748 24	0.725 22	0.529 20
John Lambert, Zhuang Liu, Ozan Sener, James Hays, Vladlen Koltun: MSeg: A Composite Dataset for Multi-domain Semantic Segmentation. CVPR 2020
ILC-PSPNet	0.475 24	0.490 23	0.581 24	0.289 19	0.507 21	0.067 26	0.379 22	0.610 23	0.417 24	0.435 20	0.822 25	0.278 21	0.267 19	0.503 22	0.228 22	0.616 23	0.533 22	0.375 23	0.820 18	0.729 21	0.560 16

Enet (reimpl)	0.376 25	0.264 26	0.452 26	0.452 13	0.365 24	0.181 24	0.143 26	0.456 25	0.409 25	0.346 25	0.769 26	0.164 24	0.218 24	0.359 25	0.123 26	0.403 26	0.381 26	0.313 26	0.571 25	0.685 24	0.472 23
Re-implementation of Adam Paszke, Abhishek Chaurasia, Sangpil Kim, Eugenio Culurciello: ENet: A Deep Neural Network Architecture for Real-Time Semantic Segmentation.
ScanNet (2d proj)	0.330 26	0.293 25	0.521 25	0.657 6	0.361 25	0.161 25	0.250 25	0.004 26	0.440 23	0.183 26	0.836 23	0.125 25	0.060 26	0.319 26	0.132 25	0.417 25	0.412 25	0.344 25	0.541 26	0.427 26	0.109 26
Angela Dai, Angel X. Chang, Manolis Savva, Maciej Halber, Thomas Funkhouser, Matthias Nießner: ScanNet: Richly-annotated 3D Reconstructions of Indoor Scenes. CVPR'17

Method	avg ap	bathtub	bed	bookshelf	cabinet	chair	counter	curtain	desk	door	otherfurniture	picture	refrigerator	shower curtain	sink	sofa	table	toilet	window

EMSANet (Instance)	0.241 1	0.401 1	0.439 1	0.085 1	0.242 1	0.220 1	0.081 1	0.289 2	0.117 2	0.121 1	0.182 1	0.126 1	0.346 1	0.181 2	0.181 2	0.358 1	0.156 1	0.675 2	0.131 1
Seichter, Daniel and Fischedick, Söhnke and Köhler, Mona and Gross, Horst-Michael: EMSANet: Efficient Multi-Task RGB-D Scene Analysis for Indoor Environments. IJCNN 2022
UniDet_RVC	0.205 2	0.381 2	0.323 3	0.037 3	0.226 3	0.177 3	0.063 2	0.277 3	0.120 1	0.067 3	0.131 3	0.074 3	0.317 2	0.080 3	0.235 1	0.289 3	0.141 3	0.678 1	0.080 3

FKNet	0.204 3	0.334 3	0.358 2	0.038 2	0.234 2	0.184 2	0.025 3	0.318 1	0.042 4	0.088 2	0.141 2	0.053 4	0.300 3	0.207 1	0.171 3	0.292 2	0.149 2	0.636 3	0.109 2

MaskRCNN_ScanNet	0.119 4	0.129 4	0.212 4	0.002 4	0.112 4	0.148 4	0.014 4	0.205 4	0.044 3	0.066 4	0.078 4	0.095 2	0.142 4	0.030 4	0.128 4	0.139 4	0.080 4	0.459 4	0.057 4
Re-implementation of Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick: Mask R-CNN. ICCV'17

Presenting the ScanNet200 Benchmark

ScanNet200 Benchmark

ScanNet200 3D Semantic Label Benchmark

ScanNet200 3D Semantic Instance Benchmark

ScanNet Benchmark

3D Semantic Label Benchmark

3D Semantic Instance Benchmark

2D Semantic Label Benchmark

2D Semantic Instance Benchmark

Scene Type Classification Benchmark

Method	avg recall	apartment	bathroom	bedroom / hotel	bookstore / library	conference room	copy/mail room	hallway	kitchen	laundry room	living room / lounge	misc	office	storage / basement / garage

LAST-PCL-type	0.780 1	0.250 3	1.000 1	1.000 1	1.000 1	1.000 1	1.000 1	0.500 2	1.000 1	0.500 2	0.889 1	0.000 2	1.000 1	1.000 1
Yanmin Wu, Qiankun Gao, Renrui Zhang, and Jian Zhang: Language-Assisted 3D Scene Understanding. arxiv23.12
multi-task	0.700 2	0.500 1	1.000 1	0.882 3	0.500 3	1.000 1	1.000 1	0.500 2	1.000 1	1.000 1	0.778 2	0.000 2	0.938 2	0.000 3
Shengyu Huang, Mikhail Usvyatsov, Konrad Schindler: Indoor Scene Recognition in 3D. IROS 2020
3DASPP-SCE	0.691 3	0.500 1	0.938 3	0.824 4	1.000 1	1.000 1	0.500 3	1.000 1	0.857 3	0.500 2	0.556 4	0.000 2	0.812 3	0.500 2

SE-ResNeXt-SSMA	0.498 4	0.000 5	0.812 4	0.941 2	0.500 3	0.500 4	0.500 3	0.500 2	0.429 5	0.500 2	0.667 3	0.500 1	0.625 4	0.000 3
Abhinav Valada, Rohit Mohan, Wolfram Burgard: Self-Supervised Model Adaptation for Multimodal Semantic Segmentation. arXiv
resnet50_scannet	0.353 5	0.250 3	0.812 4	0.529 5	0.500 3	0.500 4	0.000 5	0.500 2	0.571 4	0.000 5	0.556 4	0.000 2	0.375 5	0.000 3