💡
原文中文,约3400字,阅读约需8分钟。
📝
内容提要
本文介绍了Ψ0模型,该模型结合大规模人类视频数据与真实机器人数据,训练出一种用于类人机器人灵巧运动的视觉-语言动作模型,能够有效提取运动先验,实现复杂的全身控制。
🎯
关键要点
-
Ψ0模型结合大规模人类视频数据与真实机器人数据,训练出视觉-语言动作模型。
-
模型在大规模第一视角人类视频上进行自回归预训练,以获得良好的视觉-动作表征。
-
在高质量人形机器人数据上后训练动作专家,实现精确的机器人关节控制。
-
Ψ0模型采用多阶段训练范式,每个阶段设定不同的学习目标。
-
模型能够有效提取运动先验,实现复杂的全身控制。
-
当前类人机器人在灵巧行走-操作方面仍面临挑战,Ψ0模型旨在解决这一问题。
-
Ψ0模型的架构包括视觉-语言骨干网络和多模态扩散Transformer动作专家。
-
模型通过RL控制策略实现下肢和躯干关节的控制。
-
Ψ0模型的设计能够高效融合动作和视觉-语言特征,提升全身控制能力。
➡️