机器之心 ·

无限生成视频，还能规划决策，扩散强制整合下一token预测与全序列扩散

💡 原文中文，约5200字，阅读约需13分钟。

📝

内容提要

麻省理工学院计算机科学与人工智能实验室的研究团队提出了一种名为Diffusion Forcing（DF）的训练和采样范式，它结合了完整序列扩散和下一个标记预测模型的优势。DF在一致性和稳定性方面优于其他方法。框架中的每个标记都与随机噪声水平相关联，并使用共享的下一个标记预测模型对标记进行去噪。DF能够生成不同长度的序列并推广到新的轨迹。团队还将DF应用于序列决策，并取得了有希望的结果。DF在稳定序列生成、保持未来不确定性、长期引导和灵活奖励引导方面具有优势。团队在视频预测、扩散规划和模仿学习等各种应用中评估了DF，并发现DF是一个强大而多功能的序列模型。

🎯

关键要点

麻省理工学院的研究团队提出了一种新的训练和采样范式：Diffusion Forcing（DF）。
DF结合了全序列扩散和下一token预测模型的优势，在一致性和稳定性方面表现优越。
DF框架中每个token与随机噪声水平相关联，使用共享的下一token预测模型进行去噪。
DF能够生成不同长度的序列，并能推广到新的轨迹。
DF在视频预测、扩散规划和模仿学习等应用中表现出色。
DF的因果扩散强制（CDF）模型通过因果架构依赖于过去token，训练时去噪所有token。
CDF在采样期间能够稳定生成长度可变的序列，且表现稳定。
DF引入了蒙特卡洛树引导（MCTG），提升了高奖励生成的采样率。
DF框架可用于灵活的序列决策，适用于机器人和自主智能体领域。
DF在视频生成、扩散规划和模仿学习等多种应用中评估表现优越，尤其在长范围任务中展现出色的记忆整合能力。

❓

延伸问答

Diffusion Forcing（DF）是什么？

Diffusion Forcing（DF）是一种结合全序列扩散和下一token预测模型的训练和采样范式，旨在提高序列生成的一致性和稳定性。

DF在视频生成中的表现如何？

DF在视频生成任务中表现出色，能够稳定地展开生成序列，甚至超出训练范围，优于传统的教师强制和全序列扩散方法。

DF如何实现灵活的序列决策？

DF通过设计新的框架，结合马尔可夫决策过程，能够灵活地生成和规划序列，适用于机器人和自主智能体领域。

DF的因果扩散强制（CDF）模型有什么特点？

CDF模型依赖于过去的token，通过因果架构训练去噪所有token，能够稳定生成长度可变的序列。

DF在模仿学习中的优势是什么？

DF能够整合记忆，提升模仿学习的成功率，尤其在长范围任务中表现更为稳健，克服了传统方法的短板。

DF如何提升高奖励生成的采样率？

DF引入了蒙特卡洛树引导（MCTG），通过灵活的噪声调度和因果关系的协同利用，显著提升高奖励生成的采样率。

🏷️