上下文解缠和原型继承的鲁棒视觉定位
该文章介绍了一项新任务,使用语言描述在单目 RGB 图像中进行 3D 可视定位。作者构建了一个包含对应几何文本描述的 3D 目标的数据集 Mono3DRefer,并提出了一种利用文本嵌入进行多模态学习和 3D 目标定位的网络 Mono3DVG-TR。该方法在比较和消融研究中表现优于其他基线方法。
原文中文,约400字,阅读约需1分钟。
该文章介绍了一项新任务,使用语言描述在单目 RGB 图像中进行 3D 可视定位。作者构建了一个包含对应几何文本描述的 3D 目标的数据集 Mono3DRefer,并提出了一种利用文本嵌入进行多模态学习和 3D 目标定位的网络 Mono3DVG-TR。该方法在比较和消融研究中表现优于其他基线方法。