小红花·文摘

研究多模式指令导航（MINT），旨在使智能代理能够理解自然语言和图像。提出的移动VLA策略结合视觉语言模型与低层导航，成功应对复杂指令，如“我应该把这个放在哪里？”，在真实环境中表现出高成功率。