💡
原文中文,约4400字,阅读约需11分钟。
📝
内容提要
英伟达的Jim Fan宣布VLA(视觉-语言-动作)架构已过时,推出新范式WAM(世界动作模型),代表作DreamZero。WAM通过人类第一人称视频训练,提升机器人自主设计能力,预计2040年前实现机器人自我制造。新模型强调视觉和动作的重要性,告别遥操作数据,采用外骨骼装置采集数据。
🎯
关键要点
- Jim Fan 宣布 VLA(视觉-语言-动作)架构已过时,推出新范式 WAM(世界动作模型),代表作是 DreamZero。
- WAM 通过人类第一人称视频训练,提升机器人自主设计能力,预计在 2040 年前实现机器人自我制造。
- 新模型强调视觉和动作的重要性,告别遥操作数据,采用外骨骼装置采集数据。
- EgoScale 使用 21,000 小时人类第一人称视频预训练,发现灵巧操作的神经缩放定律(R² = 0.998)。
- Dream Dojo 是一种神经仿真器,利用视频世界模型进行训练,无需物理引擎。
- Jim 预测在 2040 年前完成机器人终局,置信度为 95%。
❓
延伸问答
Jim Fan 宣布了什么关于 VLA 和 WAM 的变化?
Jim Fan 宣布 VLA(视觉-语言-动作)架构已过时,推出新范式 WAM(世界动作模型),代表作是 DreamZero。
WAM 模型如何提升机器人的自主设计能力?
WAM 通过人类第一人称视频训练,提升机器人自主设计能力,预计在 2040 年前实现机器人自我制造。
DreamZero 是什么,它的工作原理是什么?
DreamZero 是一种新型策略模型,通过先“做梦”几秒钟来预测未来的动作和画面,强调视觉和动作的重要性。
Jim Fan 对未来机器人的预测是什么?
Jim Fan 预测在 2040 年前完成机器人自我设计和制造的目标,置信度为 95%。
EgoScale 的训练数据来源是什么?
EgoScale 使用了 21,000 小时的人类第一人称视频进行预训练,几乎没有使用机器人数据。
为什么 Jim Fan 认为遥操作会被淘汰?
Jim 预测遥操作的使用将在一两年内降到接近 0,因为它的物理限制和效率低下。
➡️