SeCG:基于跨模态图注意力的语义增强的 3D 视觉定位
原文中文,约400字,阅读约需1分钟。发表于: 。3D 视觉定位是指在给定相应的文本描述时,自动定位指定对象的 3D 区域。现有的研究在识别相似对象时存在困难,特别是当描述中涉及多个相关对象时。本文提出了一种基于图网络和设计的记忆图注意力层的语义增强关系学习模型 SeCG,以加强不同模态之间的关系导向映射。实验证明,相比现有的最先进方法,本方法提高了多关系挑战的本地化性能。
该文章介绍了一项新任务,使用语言描述在单目 RGB 图像中进行 3D 可视定位。作者构建了一个大规模数据集 Mono3DRefer,其中包含具有对应的几何文本描述的 3D 目标。作者提出了一种利用文本嵌入中的外观和几何信息进行多模态学习和 3D 目标定位的网络模型 Mono3DVG-TR。实验结果表明该方法优于其他基线方法。