上下文解缠和原型继承的鲁棒视觉定位

我们提出了一种新的框架，通过上下文解藕和原型继承来处理标准场景和开放词汇场景下的鲁棒视觉定位，实验证明我们的方法在两种情景中优于现有方法。

该文章介绍了一项新任务，使用语言描述在单目 RGB 图像中进行 3D 可视定位。作者构建了一个包含对应几何文本描述的 3D 目标的数据集 Mono3DRefer，并提出了一种利用文本嵌入进行多模态学习和 3D 目标定位的网络 Mono3DVG-TR。该方法在比较和消融研究中表现优于其他基线方法。

3D 可视定位 Mono3DVG-TR 单目 RGB 图像多模态学习文本嵌入