机器人的终局:英伟达 Jim Fan 宣告 VLA 时代结束,WAM 登场

机器人的终局:英伟达 Jim Fan 宣告 VLA 时代结束,WAM 登场

💡 原文中文,约4400字,阅读约需11分钟。
📝

内容提要

英伟达的Jim Fan宣布VLA(视觉-语言-动作)架构已过时,推出新范式WAM(世界动作模型),代表作DreamZero。WAM通过人类第一人称视频训练,提升机器人自主设计能力,预计2040年前实现机器人自我制造。新模型强调视觉和动作的重要性,告别遥操作数据,采用外骨骼装置采集数据。

🎯

关键要点

  • Jim Fan 宣布 VLA(视觉-语言-动作)架构已过时,推出新范式 WAM(世界动作模型),代表作是 DreamZero。
  • WAM 通过人类第一人称视频训练,提升机器人自主设计能力,预计在 2040 年前实现机器人自我制造。
  • 新模型强调视觉和动作的重要性,告别遥操作数据,采用外骨骼装置采集数据。
  • EgoScale 使用 21,000 小时人类第一人称视频预训练,发现灵巧操作的神经缩放定律(R² = 0.998)。
  • Dream Dojo 是一种神经仿真器,利用视频世界模型进行训练,无需物理引擎。
  • Jim 预测在 2040 年前完成机器人终局,置信度为 95%。

延伸问答

Jim Fan 宣布了什么关于 VLA 和 WAM 的变化?

Jim Fan 宣布 VLA(视觉-语言-动作)架构已过时,推出新范式 WAM(世界动作模型),代表作是 DreamZero。

WAM 模型如何提升机器人的自主设计能力?

WAM 通过人类第一人称视频训练,提升机器人自主设计能力,预计在 2040 年前实现机器人自我制造。

DreamZero 是什么,它的工作原理是什么?

DreamZero 是一种新型策略模型,通过先“做梦”几秒钟来预测未来的动作和画面,强调视觉和动作的重要性。

Jim Fan 对未来机器人的预测是什么?

Jim Fan 预测在 2040 年前完成机器人自我设计和制造的目标,置信度为 95%。

EgoScale 的训练数据来源是什么?

EgoScale 使用了 21,000 小时的人类第一人称视频进行预训练,几乎没有使用机器人数据。

为什么 Jim Fan 认为遥操作会被淘汰?

Jim 预测遥操作的使用将在一两年内降到接近 0,因为它的物理限制和效率低下。

➡️

继续阅读