宝玉的分享 ·

机器人的终局：英伟达 Jim Fan 宣告 VLA 时代结束，WAM 登场

💡 原文中文，约4400字，阅读约需11分钟。

📝

内容提要

英伟达的Jim Fan宣布VLA（视觉-语言-动作）架构已过时，推出新范式WAM（世界动作模型），代表作DreamZero。WAM通过人类第一人称视频训练，提升机器人自主设计能力，预计2040年前实现机器人自我制造。新模型强调视觉和动作的重要性，告别遥操作数据，采用外骨骼装置采集数据。

🎯

🔎

WAM（世界动作模型）通过人类第一人称视频训练，提升了机器人自主设计能力。然而，尽管Jim Fan对WAM的未来充满信心，当前模型仍处于初期阶段，尚未在生产环境中稳定运行。未来的技术突破将决定WAM能否真正取代VLA架构。

随着DexUMI外骨骼装置的引入，机器人数据采集方式发生了根本性变化。通过直接采集人类操作数据，机器人可以在没有遥操作的情况下自主学习。这一转变不仅提高了数据的质量，也降低了对传统遥操作的依赖，可能会加速机器人技术的发展。

EgoScale的研究发现，灵巧操作的神经缩放定律表明，增加人类视频数据将显著提升机器人的灵巧性。这一发现为未来的机器人训练提供了重要的实证依据，可能会推动更高效的训练方法和更智能的机器人系统的开发。

❓

Jim Fan 宣布 VLA（视觉-语言-动作）架构已过时，推出新范式 WAM（世界动作模型），代表作是 DreamZero。

WAM 通过人类第一人称视频训练，提升机器人自主设计能力，预计在 2040 年前实现机器人自我制造。

DreamZero 是一种新型策略模型，通过先“做梦”几秒钟来预测未来的动作和画面，强调视觉和动作的重要性。

Jim Fan 预测在 2040 年前完成机器人自我设计和制造的目标，置信度为 95%。

EgoScale 使用了 21,000 小时的人类第一人称视频进行预训练，几乎没有使用机器人数据。

Jim 预测遥操作的使用将在一两年内降到接近 0，因为它的物理限制和效率低下。

🏷️