Result details - ScanRefer Benchmark

Submitted by Sijin Chen.

Full name	Vote2Cap-DETR++
Description	Decoupled feature extraction and task decoding for 3D dense captioning. Set-to-set training, and fine-tuned with SCST (CiDEr reward)
Publication title	Vote2Cap-DETR++: Decoupling Localization and Describing for End-to-End 3D Dense Captioning
Publication authors	Sijin Chen, Hongyuan Zhu, Mingsheng Li, Xin Chen, Peng Guo, Yinjie Lei, Gang Yu, Taihao Li, Tao Chen
Publication URL	https://arxiv.org/abs/2309.02999
Input Data Types	Uses XYZ coordinates,Uses RGB values,Uses Normal Vectors
Programming language(s)	python
Hardware	RTX3090
Source code or download URL	https://github.com/ch3cook-fdu/Vote2Cap-DETR
Submission creation date	16 Feb, 2024
Last edited	19 Feb, 2024

Captioning F1-Score				Dense Captioning	Object Detection
CIDEr@0.5IoU	BLEU-4@0.5IoU	Rouge-L@0.5IoU	METEOR@0.5IoU	DCmAP	mAP@0.5
0.3360	0.1908	0.3012	0.1386	0.1864	0.5090

Results for Vote2Cap-DETR++