移动 VLA:多模式指引导航与长上下文 VLMs 以及拓扑图
原文中文,约600字,阅读约需2分钟。发表于: 。在导航研究中,一个难以达成的目标是建立一个智能代理,能够理解包括自然语言和图像的多模式指令,并进行有用的导航。为了实现这一目标,我们研究了一类被称为多模式指令导航(MINT)的广泛应用导航任务,其中环境先验通过以前记录的演示视频提供。最近视觉语言模型(VLMs)的进展显示了实现这一目标的有希望的途径,因为它表现出对多模式输入的感知和推理能力。然而,VLMs...
研究人员提出了一种名为移动 VLA 的导航策略,结合了视觉语言模型和拓扑图,能够理解多模式指令并进行有用的导航。在真实世界环境中的评估中,移动 VLA 在多模式指令情况下表现出高的成功率。