结构之法算法之道 ·

DreamZero——同时统一预测未来视觉状态与动作的世界动作模型：解决当下VLA如果人类不示教则理论强但具体操作不强的弊病，且提升任务泛化、本体泛化

💡 原文中文，约16200字，阅读约需39分钟。

📝

内容提要

DreamZero是一种新型世界动作模型，通过联合预测视频和动作，提升机器人在新环境中的泛化能力。与传统模型相比，DreamZero能够高效学习多样化技能，支持零样本泛化，并实现实时控制。其核心在于利用预训练的视频扩散模型，结合自回归架构和优化策略，提高推理速度和准确性。

🎯

🔎

DreamZero通过联合预测视频和动作，显著提升了机器人在新环境中的泛化能力。这种方法不仅打破了传统模型对重复示教的依赖，还能从异构数据中高效学习多样化技能，展现出更强的适应性和灵活性。

尽管DreamZero在推理速度上实现了38倍的提升，但在实时控制中仍面临延迟问题。通过异步执行机制和系统级优化，DreamZero能够在保持高效推理的同时，确保机器人对环境变化的快速响应，提升了操作的流畅性。

DreamZero在环境和任务泛化基准上表现优异，平均任务进度提升超过2倍。这表明该模型在处理未见任务时的零样本泛化能力，可能为未来的机器人学习和应用开辟新的方向，尤其是在复杂和动态的环境中。

❓

DreamZero通过联合预测视频和动作，提升了机器人在新环境中的泛化能力，并实现了零样本泛化和实时控制。

DreamZero通过一系列优化方法，包括算法改进和系统级并行化，实现了推理速度提升38倍，达到约7Hz的频率。

在环境和任务泛化基准上，DreamZero的平均任务进度提升了超过2倍，并在特定任务后训练后保持环境泛化能力。

DreamZero通过从异构机器人数据中学习多样化技能，无需大量重复示教，从而实现零样本泛化。

DreamZero的核心架构基于预训练的视频扩散模型，结合自回归架构和优化策略，能够同时预测视频和动作。

DreamZero能够通过联合生成视频和动作，从多样且非重复的数据中高效学习，适应新环境中的新任务。

🏷️