上下文解缠和原型继承的鲁棒视觉定位

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文章介绍了一项新任务,使用语言描述在单目 RGB 图像中进行 3D 可视定位。作者构建了一个包含对应几何文本描述的 3D 目标的数据集 Mono3DRefer,并提出了一种利用文本嵌入进行多模态学习和 3D 目标定位的网络 Mono3DVG-TR。该方法在比较和消融研究中表现优于其他基线方法。

🎯

关键要点

  • 介绍了一项新的任务,使用语言描述在单目 RGB 图像中进行 3D 可视定位。
  • 构建了一个大规模数据集 Mono3DRefer,包含具有几何文本描述的 3D 目标。
  • 数据集由 ChatGPT 生成并经过手动改进。
  • 提出了 Mono3DVG-TR 网络,利用文本嵌入进行多模态学习和 3D 目标定位。
  • 深度预测器旨在学习几何特征,双文本引导适配器改进多尺度视觉和几何特征。
  • 基于深度 - 文本 - 视觉堆叠注意力的解码器融合物体级几何线索和视觉外观。
  • Mono3DVG 提供全面的基准测试和分析,方法优于所有基线方法。
  • 数据集和代码将在链接中公开发布。
➡️

继续阅读