WaterVG: 基于文本引导的视觉和毫米波雷达的水道视觉定位

基于人类意图的水域感知对于水面无人船的自主导航和操作具有重要意义。本文提出了第一个基于人类意图的水域感知的视觉 grounding 数据集 WaterVG，并引入了一种新颖的多模态视觉 grounding 模型 Potamoi，通过融合不同传感器和语言特征，有效地解决了细粒度指称表达理解和分割任务。经过全面实验和评估，我们的 Potamoi 模型在 WaterVG 数据集上取得了与同类模型相比的最先进水平。

该文章介绍了一项新任务，使用语言描述在单目 RGB 图像中进行 3D 可视定位。作者构建了一个包含对应几何文本描述的 3D 目标的大规模数据集 Mono3DRefer，并提出了一种利用文本嵌入进行多模态学习和 3D 目标定位的网络 Mono3DVG-TR。该方法在比较和消融研究中表现优于所有基线方法。

3D 可视定位 Mono3DVG-TR 单目 RGB 图像多模态学习文本嵌入