WaterVG: 基于文本引导的视觉和毫米波雷达的水道视觉定位
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文章介绍了一项新任务,使用语言描述在单目 RGB 图像中进行 3D 可视定位。作者构建了一个包含对应几何文本描述的 3D 目标的大规模数据集 Mono3DRefer,并提出了一种利用文本嵌入进行多模态学习和 3D 目标定位的网络 Mono3DVG-TR。该方法在比较和消融研究中表现优于所有基线方法。
🏷️