内容提要
上海创智学院的罗剑岚团队发布了全球最大规模的开源预训练具身世界模型τ0-WM,使用了17800小时的真机遥操作数据。该模型通过评估多个候选动作,提升了机器人在复杂任务中的成功率,推动了预训练与后训练的结合。
关键要点
-
上海创智学院的罗剑岚团队发布了全球最大规模的开源预训练具身世界模型τ0-WM,使用了17800小时的真机遥操作数据。
-
τ0-WM的参数量达到5B,预训练数据规模高达约3万小时,其中真机遥操作数据占绝大部分。
-
τ0-WM结合了测试时计算,提升了机器人在复杂任务中的成功率,能够在执行前对多个候选动作进行排序。
-
模型在四个长程精细操作任务中的平均成功率超过了对标的其他模型,显示出其在后训练方面的持续投入成效。
-
τ0-WM的训练数据由三部分组成:真机遥操作数据、UMI数据和人类第一视角Ego-Centric数据,分别提供不同的监督信号。
-
通过模态特定监督掩码,τ0-WM成功将不同来源的数据整合进同一预训练体系。
-
实验结果表明,测试时计算显著提升了模型在新任务上的成功率,验证了其有效性。
-
τ0-WM打破了行业对具身智能数据金字塔的固有认知,首次将真机遥操作数据作为预训练的主体。
延伸问答
τ0-WM模型的主要特点是什么?
τ0-WM模型是全球最大规模的开源预训练具身世界模型,参数量达到5B,使用了17800小时的真机遥操作数据,并结合测试时计算提升机器人在复杂任务中的成功率。
τ0-WM是如何提升机器人任务成功率的?
τ0-WM通过在执行前对多个候选动作进行排序,选择最优方案,并在必要时调用模拟器进行修正,从而提升了机器人在复杂任务中的成功率。
τ0-WM的训练数据来源有哪些?
τ0-WM的训练数据主要由三部分组成:17800小时的真机遥操作数据、6500小时的UMI数据和3000小时的人类第一视角Ego-Centric数据。
测试时计算(Test-Time Computation)在τ0-WM中有什么作用?
测试时计算使得机器人在执行动作前可以多次想象未来状态,从而更好地评估候选动作的效果,提高决策的准确性。
τ0-WM如何处理不同来源的数据?
τ0-WM通过模态特定监督掩码将不同来源的数据整合进同一预训练体系,确保模型能够有效学习不同类型的数据。
τ0-WM在实验中表现如何?
在实验中,τ0-WM在新任务上的成功率显著提升,使用测试时计算后,成功率从43%提升至60%,显示出其有效性。