InfoQ ·

DeepMind发布Gemini Robotics-ER 1.5，用于具身推理

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

谷歌DeepMind推出Gemini Robotics-ER 1.5，这是一个支持空间推理和多步骤规划的机器人推理模型。开发者可以通过Google AI Studio和Gemini API预览该模型，并调整思维预算以平衡响应延迟和推理准确性。Gemini Robotics结合了推理模型与视觉-语言-动作模型，提升了机器人的推理能力，并在15个基准测试中表现优异，适用于多种机器人平台。

🎯

关键要点

谷歌DeepMind推出Gemini Robotics-ER 1.5，这是一个支持空间推理和多步骤规划的机器人推理模型。
开发者可以通过Google AI Studio和Gemini API预览该模型，并调整思维预算以平衡响应延迟和推理准确性。
该模型能够输出基于物体大小、重量和可用性的精确2D点，支持诸如指向可拾取物体的命令。
Gemini Robotics-ER 1.5包含安全机制，防止不安全或物理上不可行的计划，并检查有效载荷限制和工作空间约束。
该模型不直接控制机器人执行器，而是可以调用外部工具，如视觉-语言-动作模型或用户定义的函数来执行命令。
Gemini Robotics结合了推理模型与视觉-语言-动作模型，允许不同配置的机器人共享更高层次的推理能力。
与其他大型机器人模型相比，Gemini Robotics-ER强调可控的推理深度和安全机制。
初步反应显示出兴趣与谨慎，工程师认为可调的推理预算是平衡准确性和部署速度的有用特性。
AI顾问Sonia Sarao认为该模型的通用性将对机器人技术产生变革性影响。
CPA Brian Orlando称其为真正的转折点，认为机器人推理和规划的能力将改变未来。
Gemini Robotics-ER 1.5在15个机器人基准测试中表现出色，兼容多种机器人平台，支持从实验室测试到实际部署的过渡。

🔎

延伸解读

可调推理预算的意义

Gemini Robotics-ER 1.5允许开发者调整推理预算，以平衡响应延迟和推理准确性。这一特性使得开发者能够根据具体应用场景的需求，优化机器人的反应速度和决策质量，尤其在复杂环境中尤为重要。

安全机制的重要性

该模型内置的安全机制能够防止不安全或不可行的计划，确保机器人在执行任务时遵循有效载荷和工作空间的限制。这种设计不仅提升了机器人的安全性，也为实际应用提供了更高的可靠性，尤其是在与人类协作的场景中。

与其他模型的比较

与Nvidia等其他大型机器人模型相比，Gemini Robotics-ER 1.5强调可控的推理深度和安全机制。这种分离推理与执行的设计理念，可能使其在不同硬件平台上的适应性更强，推动机器人技术的多样化发展。

❓

延伸问答

Gemini Robotics-ER 1.5的主要功能是什么？

Gemini Robotics-ER 1.5支持空间推理和多步骤规划，能够输出基于物体特征的精确2D点。

开发者如何使用Gemini Robotics-ER 1.5？

开发者可以通过Google AI Studio和Gemini API预览该模型，并调整思维预算以平衡响应延迟和推理准确性。

Gemini Robotics-ER 1.5与其他机器人模型相比有什么优势？

与其他大型机器人模型相比，Gemini Robotics-ER强调可控的推理深度和安全机制，允许更灵活的适应不同硬件平台。

Gemini Robotics-ER 1.5的安全机制是怎样的？

该模型包含安全机制，防止不安全或物理上不可行的计划，并检查有效载荷限制和工作空间约束。

初步反应对Gemini Robotics-ER 1.5的看法如何？

初步反应显示出兴趣与谨慎，工程师认为可调的推理预算是平衡准确性和部署速度的有用特性。

Gemini Robotics-ER 1.5在基准测试中的表现如何？

该模型在15个机器人基准测试中表现出色，兼容多种机器人平台。

🏷️