量子位 ·

清华研究生开源大一统世界模型：性能超越硅谷标杆40%！

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

清华研究生团队推出的开源世界模型Motus，性能超越硅谷标杆40%。该模型整合视觉、语言、动作等五种智能范式，实现“看-想-动”的闭环，提升机器人预测能力，成功率达88%。Motus通过潜动作机制和三阶段训练流程，显著提高数据效率，标志着具身智能领域的重大突破。

🎯

清华研究生团队推出的开源世界模型Motus，性能超越硅谷标杆40%。
Motus整合视觉、语言、动作等五种智能范式，实现“看-想-动”的闭环，提升机器人预测能力，成功率达88%。
Motus通过潜动作机制和三阶段训练流程，显著提高数据效率，标志着具身智能领域的重大突破。
Motus在50项通用任务的测试中，成功率比国际顶尖的Pi-0.5提升了35%以上，最高提升幅度达40%。
Motus采用Mixture-of-Transformer架构和Tri-model Joint Attention机制，将理解、视频生成和动作控制三种专家整合在一起。
Motus通过光流技术和Delta Action机制，解决了机器人训练中的数据稀缺问题。
Motus的三阶段训练流程包括视频生成预训练、潜动作预训练和特定本体微调。
Motus在仿真榜单RoboTwin 2.0上，成功率达88%，在高难度任务中成功率飙升至95%。
Motus的数据效率比对手提升了13.55倍，达到同样水平所需的数据量大幅减少。
Motus由清华大学和生数科技联合发布，团队成员包括清华的硕士和博士研究生。

🔎

Motus模型通过整合视觉、语言和动作等五种智能范式，形成了一个统一的框架。这种架构不仅提升了机器人的预测能力，还显著提高了数据效率，使得机器人在复杂任务中的成功率大幅提升。相比于传统模型，Motus在多任务处理上表现出更强的泛化能力，能够有效避免过拟合问题。

Motus的开源不仅展示了清华大学和生数科技在具身智能领域的技术实力，也为研究者提供了一个强大的工具。开源意味着更多的开发者和研究者可以参与到模型的改进和应用中，这将加速相关技术的发展，并推动整个行业的进步。

Motus在数据效率上实现了显著提升，达到传统模型的13.55倍。这一突破意味着在相同的任务水平下，Motus所需的数据量大幅减少，降低了训练成本。这对于资源有限的研究团队和企业来说，具有重要的实际意义。

❓

Motus模型整合了视觉、语言、动作等五种智能范式，实现了‘看-想-动’的闭环，显著提升了机器人预测能力。

Motus在50项通用任务的测试中，成功率达88%，在高难度任务中成功率可达95%。

Motus通过潜动作机制和三阶段训练流程，数据效率比对手提升了13.55倍，减少了达到同样水平所需的数据量。

Motus的训练流程包括视频生成预训练、潜动作预训练和特定本体微调三个阶段。

Motus采用Mixture-of-Transformer架构和Tri-model Joint Attention机制，将理解、视频生成和动作控制三种专家整合在一起。

Motus由清华大学的硕士和博士研究生团队与生数科技联合开发，主要负责人是毕弘喆和谭恒楷。

🏷️