小米的首代机器人VLA大模型来了!丝滑赛德芙,推理延迟仅80ms丨全面开源

💡 原文中文,约4800字,阅读约需12分钟。
📝

内容提要

小米推出首代具身机器人VLA大模型,具备80ms推理延迟和30Hz控制频率,支持消费级显卡运行。通过三项技术创新,该模型提升了自主性,解决了机器人动作连续性和视觉理解能力的问题,展现出优异的仿真和真实环境表现,推动了具身智能的工业应用。

🎯

关键要点

  • 小米推出首代具身机器人VLA大模型,具备80ms推理延迟和30Hz控制频率。
  • 该模型支持消费级显卡(如RTX 4090)运行,展现出优异的仿真和真实环境表现。
  • 小米的VLA大模型通过三项技术创新提升了自主性,解决了机器人动作连续性和视觉理解能力的问题。
  • 模型采用MoT架构,分为大脑和小脑,确保理解能力与动作生成的高效结合。
  • 引入两阶段预训练策略,保护视觉理解能力的同时学习机器人动作。
  • 改良异步方案通过Λ形注意力掩码解决动作惯性问题,确保动作的连续性和实时修正。
  • Xiaomi-Robotics-0在多个仿真环境中超越现有头部模型,展现出极高的成功率和稳定性。
  • 小米在具身智能领域选择务实路线,强调工业落地与复杂环境适应性。
  • 小米的开源策略降低了技术门槛,推动了行业的透明度和技术讨论。
➡️

继续阅读