量子位 ·

小米的首代机器人VLA大模型来了！丝滑赛德芙，推理延迟仅80ms丨全面开源

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

小米推出首代具身机器人VLA大模型，具备80ms推理延迟和30Hz控制频率，支持消费级显卡运行。通过三项技术创新，该模型提升了自主性，解决了机器人动作连续性和视觉理解能力的问题，展现出优异的仿真和真实环境表现，推动了具身智能的工业应用。

🎯

🔎

小米的VLA大模型在具身智能领域的推出，标志着机器人技术向自主性和连续性迈出了重要一步。随着技术的进步，机器人将不再依赖人工干预，能够在复杂环境中独立完成任务，这将极大提升生产效率和应用范围。

小米选择开源其VLA大模型，降低了技术门槛，促进了行业透明度。这一举措不仅使中小开发者能够更容易地参与到具身智能的开发中，也推动了技术讨论的深入，可能会加速整个行业的创新与发展。

小米的VLA大模型通过三项技术创新解决了机器人动作的连续性和视觉理解能力问题。这些创新不仅提升了模型的性能，也为未来的机器人应用提供了更为坚实的基础，尤其是在工业场景中的实际应用。

❓

小米的VLA大模型主要有三项技术创新：架构设计、预训练策略和后训练机制，旨在提升机器人的自主性和动作连续性。

Xiaomi-Robotics-0的推理延迟为80ms，控制频率为30Hz。

通过改良异步方案和Λ形注意力掩码，小米的VLA大模型确保机器人在执行动作时能够实时修正，避免动作惯性。

小米的VLA大模型支持消费级显卡，如RTX 4090。

小米的开源策略降低了技术门槛，提升了行业透明度，促进了技术讨论和开发者的创新。

Xiaomi-Robotics-0在多个仿真环境中超越了现有头部模型，展现出极高的成功率和稳定性。

🏷️