研究多模式指令导航(MINT),旨在使智能代理能够理解自然语言和图像。提出的移动VLA策略结合视觉语言模型与低层导航,成功应对复杂指令,如“我应该把这个放在哪里?”,在真实环境中表现出高成功率。
完成下面两步后,将自动完成登录并继续当前操作。