量子位 ·

τ0-WM：最大规模预训练的开源具身世界模型来了

💡 原文中文，约4800字，阅读约需12分钟。

📝

内容提要

上海创智学院的罗剑岚团队发布了全球最大规模的开源预训练具身世界模型τ0-WM，使用了17800小时的真机遥操作数据。该模型通过评估多个候选动作，提升了机器人在复杂任务中的成功率，推动了预训练与后训练的结合。

🎯

🔎

τ0-WM模型的成功在于其使用了17800小时的真机遥操作数据，这一数据量在行业内前所未有。真机数据不仅提供了高质量的动作监督信号，还确保了模型在真实环境中的有效性。这一创新打破了以往对真机数据的固有认知，表明其在预训练阶段的应用是可行的，可能会引领行业新的数据采集和使用模式。

τ0-WM引入的测试时计算（Test-Time Computation）显著提升了模型在新任务上的成功率。通过在执行前对多个候选动作进行评估和修正，模型能够更好地预测未来状态，从而减少错误。这种方法不仅提高了决策的准确性，也为机器人在复杂操作中的应用提供了更大的灵活性和可靠性。

传统上，具身智能的数据体系呈现金字塔结构，真机遥操作数据位于顶层，因其高成本而被视为稀缺资源。τ0-WM的出现挑战了这一观念，通过将真机数据作为预训练的主体，结合Ego-Centric数据，推动了数据金字塔的重构。这一变革可能促使更多团队重新思考数据采集策略，推动行业向更高效的方向发展。

❓

τ0-WM模型是全球最大规模的开源预训练具身世界模型，参数量达到5B，使用了17800小时的真机遥操作数据，并结合测试时计算提升机器人在复杂任务中的成功率。

τ0-WM通过在执行前对多个候选动作进行排序，选择最优方案，并在必要时调用模拟器进行修正，从而提升了机器人在复杂任务中的成功率。

τ0-WM的训练数据主要由三部分组成：17800小时的真机遥操作数据、6500小时的UMI数据和3000小时的人类第一视角Ego-Centric数据。

测试时计算使得机器人在执行动作前可以多次想象未来状态，从而更好地评估候选动作的效果，提高决策的准确性。

τ0-WM通过模态特定监督掩码将不同来源的数据整合进同一预训练体系，确保模型能够有效学习不同类型的数据。

在实验中，τ0-WM在新任务上的成功率显著提升，使用测试时计算后，成功率从43%提升至60%，显示出其有效性。

🏷️