小红花·文摘

本文提出了3D Referring Transformer (3DRefTR)框架，结合了3D指代表达理解和分割任务，在ScanRefer数据集上表现优异。同时，研究介绍了多任务协作网络(MCN)和其他模型，显著提升了指代表达的准确性和3D视觉定位性能。

多分支协作学习网络用于 3D 视觉定位

BriefGPT - AI 论文速递 ·

本文探讨了自然语言与计算机视觉中的指代表达理解，提出了语言自适应动态子网（LADS）、无提案一阶段模型（PFOS）和实时全局推理网络等新模型，旨在提升推理速度和准确性。同时，研究还涉及3D对象定位方法ScanRefer及其数据集，并强调了Dual Modular Memorization (DMM)方法在连续任务中的性能改进。

ScanFormer: 迭代扫描式指代表达理解

BriefGPT - AI 论文速递 ·

本文介绍了一种名为3D-RES的模型，其中采用了一个创新的端到端Superpoint-Text Matching Network（3D-STMN），通过超点文本匹配机制实现了跨模态语义关系的高效利用，并引入了依赖驱动交互模块来提升模型对指代表达的语义理解。在ScanRefer基准上的实验结果表明，该模型在性能和速度方面都取得了显著提升。

3D-STMN: 基于依赖驱动的超点 - 文本匹配网络用于端到端 3D 引用表达式分割

BriefGPT - AI 论文速递 ·