DreamZero——同时预测未来视觉状态与动作的世界动作模型:解决当下VLA如果人类不示教则只会理论但不会具体操作的弊病
📝
内容提要
最新的VLA模型在语义泛化方面表现出色,但在新环境中对未见过的物理动作的泛化却举步维艰。而本文要介绍的DreamZero,这是一种建立在预训练视频扩散骨干网络之上的世界动作模型(World Action Model,WAM) 与VLA 不同,WAM 通过预测未来的世界状态和动作来学习物理动力学,并将视频作为世界演化方式的稠密表示
➡️