英伟达的Jim Fan宣布VLA(视觉-语言-动作)架构已过时,推出新范式WAM(世界动作模型),代表作DreamZero。WAM通过人类第一人称视频训练,提升机器人自主设计能力,预计2040年前实现机器人自我制造。新模型强调视觉和动作的重要性,告别遥操作数据,采用外骨骼装置采集数据。
研究者探讨了世界模型代理(WAM)在测试阶段是否需要显式未来想象,提出了Fast-WAM架构,训练时保留视频共训练,推理时跳过未来预测。结果显示,视频预测主要在训练阶段提升模型性能,而非在推理阶段生成未来观测。
GigaWorld-Policy是一种高效的以动作为中心的世界-动作模型,旨在提升机器人策略学习。该模型结合未来视觉动态与动作预测,优化学习效率并减少推理延迟。通过课程式训练和多样化视频源注入物理先验,在机器人数据上进行预训练,以增强对交互动力学的鲁棒性。
交大系的酷哇科技推出COOWA WAM 2.0世界模型,标志着机器人从模仿转向推理,提升物理AI能力。该技术通过反事实推演和直觉行动系统,解决传统机器人在真实世界中的挑战,预计2026年交付超1万台机器人,助力未来城市“Robo City”的建设。
完成下面两步后,将自动完成登录并继续当前操作。