量子位 ·

罗福莉首个小米成果！开源具身大模型

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

罗福莉在小米入职不到10天便发布了首篇论文，介绍了全球首个跨具身智能与自动驾驶的开源模型MiMo-Embodied。该模型在29个基准测试中表现优异，成功融合了这两个领域，解决了知识迁移难题，提升了多模态推理能力。

🎯

🔎

MiMo-Embodied模型的推出标志着具身智能与自动驾驶领域的首次成功融合。这种跨领域的整合不仅提升了模型的多模态推理能力，还为未来的智能系统开发提供了新的思路，可能推动更多应用场景的实现，如智能家居与自动驾驶的协同工作。

MiMo-Embodied采用的渐进式四阶段训练策略，确保了模型在不同领域的能力逐步提升。这种方法不仅有效解决了领域差距问题，还增强了模型在复杂任务中的表现，值得其他研究者借鉴以提升多模态模型的性能。

该研究强调了建立全面的跨具身能力评估体系的重要性。通过定性与定量的双重评估，MiMo-Embodied的实际效能得到了验证，这为未来模型的评估标准提供了参考，推动了行业内的透明度与可比性。

❓

MiMo-Embodied模型成功融合了具身智能与自动驾驶，解决了知识迁移难题，并在29个基准测试中表现优异。

该模型采用渐进式四阶段训练策略，包括具身智能监督微调、自动驾驶监督微调、思维链推理微调和强化学习微调。

在自动驾驶能力上，MiMo-Embodied能够处理多样化的驾驶情况，并在复杂任务中展现出强大的能力。

该模型的架构包括视觉输入编码的Vision Transformer、投影器和负责文本理解的LLM。

通过构建统一的具身VLM，MiMo-Embodied整合了自动驾驶与具身智能的任务，打破了室内操作与户外驾驶之间的领域鸿沟。

罗福莉在加入小米前曾在阿里巴巴和DeepSeek等公司担任研究员，参与多个重要AI项目的研发。

🏷️