本文提出了3D Referring Transformer (3DRefTR)框架,结合了3D指代表达理解和分割任务,在ScanRefer数据集上表现优异。同时,研究介绍了多任务协作网络(MCN)和其他模型,显著提升了指代表达的准确性和3D视觉定位性能。
完成下面两步后,将自动完成登录并继续当前操作。