机器之心 ·

Gemini 1.5 Pro装进机器人，参观一遍公司就能礼宾、带路

💡 原文中文，约5100字，阅读约需12分钟。

📝

内容提要

谷歌DeepMind的机器人使用Gemini 1.5 Pro进行多模态指示导航，结合了语言和视觉上下文。研究者通过示范游览视频和拓扑图解决了MINT问题，提高了机器人的零样本性能。实验结果显示，Mobility VLA在现实环境中表现出色，长上下文VLM和拓扑图是成功的关键。

🎯

关键要点

谷歌DeepMind的机器人使用Gemini 1.5 Pro进行多模态指示导航，结合语言和视觉上下文。
Mobility VLA导航策略提升了机器人的零样本性能，解决了MINT问题。
Mobility VLA结合了长上下文VLM的环境理解和常识推理能力，以及基于拓扑图的低级导航策略。
Mobility VLA在现实环境中表现出色，成功率达到86%和90%。
示范游览视频的使用使得机器人能够更好地理解环境并执行多模态指令。
Mobility VLA的高层策略通过示范游览和多模态用户指令找到导航目标帧。
拓扑图方法简化了环境的连通性捕捉，提升了导航的效率。
Mobility VLA在高层目标查找方面优于其他替代方案，长上下文VLM是成功的关键。
拓扑图对于实现机器人的零样本导航至关重要，缺乏拓扑图会导致成功率为0%。

❓

延伸问答

Gemini 1.5 Pro如何提升机器人的导航能力？

Gemini 1.5 Pro通过提供百万级token的上下文长度，增强了机器人的环境记忆能力，从而提升了导航能力。

Mobility VLA的导航策略有什么特点？

Mobility VLA结合了长上下文VLM的环境理解和常识推理能力，以及基于拓扑图的低级导航策略，形成分层式导航。

Mobility VLA在现实环境中的成功率是多少？

Mobility VLA在现实环境中的成功率达到了86%和90%。

示范游览视频在机器人导航中起到什么作用？

示范游览视频帮助机器人更好地理解环境，并执行多模态指令，从而提高导航效率。

拓扑图在Mobility VLA中有什么重要性？

拓扑图对于实现机器人的零样本导航至关重要，缺乏拓扑图会导致成功率为0%。

Mobility VLA如何解决MINT问题？

Mobility VLA通过结合长上下文VLM和拓扑图，提供了稳健的低级导航策略，从而有效解决MINT问题。

🏷️

标签

Gemini 1.5 Pro MINT问题 Mobility VLA gemini 多模态指示导航机器人谷歌DeepMind

➡️

继续阅读

DXC与AI公司ElevenLabs建立战略合作伙伴关系
(全球TMT 2026年07月29日讯)DXC Technology宣布与专注于音频模型和语音智能体的AI公司 […]
你能想？AI剧已经从短视频杀进卫视黄金档了
【TechWeb】7月末，安徽卫视在每晚黄金档播出全AI中剧《桃花潭记》，引发热议。该剧是国内首部全AI流程制作的非遗题材中剧。全剧共20集，单集时长约1...
电通团队发布最新《体育与娱乐趋势：真诚，自有引力》
(全球TMT 2026年07月29日讯) 电通体育与娱乐（dentsu Sports & Entert […]
产教融合落地标杆｜华为云×上海交通大学CloudRobo具身智能训练营圆满收官
作为华为云首批具身智能高校合作单位，上海交通大学与华为云依托CloudRobo平台，开放专属算力、数据集与模型资产，配套全国性学科赛事，构建起“课堂教学+...
陕北看海，黄土难寻
Matrix首页推荐Matrix是少数派的写作社区，我们主张分享真实的产品体验，有实用价值的经验与思考。我们会不定期挑选Matrix最优质的文章，展示来自...
博客是否属于“公共空间”？对公开的内容要有预见性
最近看了莫比乌斯的一篇文章，文章结尾发出了一个问题：博客是否属于“公共空间”？广义的博客是分享，记录，发表观点 […]