小米的首代机器人VLA大模型来了!丝滑赛德芙,推理延迟仅80ms丨全面开源
💡
原文中文,约4800字,阅读约需12分钟。
📝
内容提要
小米推出首代具身机器人VLA大模型,具备80ms推理延迟和30Hz控制频率,支持消费级显卡运行。通过三项技术创新,该模型提升了自主性,解决了机器人动作连续性和视觉理解能力的问题,展现出优异的仿真和真实环境表现,推动了具身智能的工业应用。
🎯
关键要点
- 小米推出首代具身机器人VLA大模型,具备80ms推理延迟和30Hz控制频率。
- 该模型支持消费级显卡(如RTX 4090)运行,展现出优异的仿真和真实环境表现。
- 小米的VLA大模型通过三项技术创新提升了自主性,解决了机器人动作连续性和视觉理解能力的问题。
- 模型采用MoT架构,分为大脑和小脑,确保理解能力与动作生成的高效结合。
- 引入两阶段预训练策略,保护视觉理解能力的同时学习机器人动作。
- 改良异步方案通过Λ形注意力掩码解决动作惯性问题,确保动作的连续性和实时修正。
- Xiaomi-Robotics-0在多个仿真环境中超越现有头部模型,展现出极高的成功率和稳定性。
- 小米在具身智能领域选择务实路线,强调工业落地与复杂环境适应性。
- 小米的开源策略降低了技术门槛,推动了行业的透明度和技术讨论。
➡️