💡 原文英文,约600词,阅读约需2分钟。
📝

内容提要

谷歌DeepMind推出了Gemini Robotics On-Device,这是一个可在机器人硬件上本地运行的视觉-语言-动作基础模型,具备低延迟推理能力,适合本地应用。该模型是Gemini Robotics系列的最新版本,旨在解决延迟和连接性问题,并通过SDK支持开发者定制。

🎯

关键要点

  • 谷歌DeepMind推出Gemini Robotics On-Device,这是一个可在机器人硬件上本地运行的视觉-语言-动作基础模型。
  • 该模型具备低延迟推理能力,适合本地应用,并可通过少量示例进行微调。
  • Gemini Robotics On-Device是Gemini Robotics系列的最新版本,旨在解决延迟和连接性问题。
  • 该模型遵循自然语言指令,利用视觉识别和推理环境中的物体。
  • DeepMind在双臂Aloha机器人上训练了该模型,并在多个其他机器人平台上进行了评估。
  • Gemini Robotics SDK将加速创新,允许开发者根据特定需求定制模型。
  • DeepMind还发布了多个基准测试,包括评估机器人安全机制的ASIMOV基准和测量视觉推理能力的ERQA评估数据集。
  • 模型在七个不同任务上表现良好,成功完成任务的平均时间超过60%。
  • Gemini Robotics On-Device尚未普遍提供,感兴趣的开发者可以注册候补名单。
➡️

继续阅读