Gemini 1.5 Pro装进机器人,参观一遍公司就能礼宾、带路
原文中文,约5100字,阅读约需12分钟。发表于: 。谷歌DeepMind的机器人使用Gemini 1.5 Pro进行多模态指示导航,结合了语言和视觉上下文。研究者通过示范游览视频和拓扑图解决了MINT问题,提高了机器人的零样本性能。实验结果显示,Mobility VLA在现实环境中表现出色,长上下文VLM和拓扑图是成功的关键。
谷歌DeepMind的机器人使用Gemini 1.5 Pro进行多模态指示导航,结合了语言和视觉上下文。研究者通过示范游览视频和拓扑图解决了MINT问题,提高了机器人的零样本性能。实验结果显示,Mobility VLA在现实环境中表现出色,长上下文VLM和拓扑图是成功的关键。