小红花·文摘

本文提出了3D Referring Transformer (3DRefTR)框架，结合了3D指代表达理解和分割任务，在ScanRefer数据集上表现优异。同时，研究介绍了多任务协作网络(MCN)和其他模型，显著提升了指代表达的准确性和3D视觉定位性能。