谷歌DeepMind的机器人使用Gemini 1.5 Pro进行多模态指示导航,结合了语言和视觉上下文。研究者通过示范游览视频和拓扑图解决了MINT问题,提高了机器人的零样本性能。实验结果显示,Mobility VLA在现实环境中表现出色,长上下文VLM和拓扑图是成功的关键。
完成下面两步后,将自动完成登录并继续当前操作。