BriefGPT - AI 论文速递 ·

视频∞：分布式长视频生成

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本文介绍了多种视频生成模型的进展，如NUWA-XL和Delphi，强调了通过扩散模型生成高质量长视频的能力。这些模型在训练效率和视频一致性方面有显著提升，能够处理复杂文本条件，生成时长可达25分钟的视频，并在自动驾驶等应用中表现出色。

🎯

❓

NUWA-XL模型采用'粗略到精细'的生成过程，首先使用全局扩散模型生成关键帧，然后通过本地扩散模型填充相邻帧的内容。

Delphi模型通过共享噪声建模机制和特征对齐模块来提高视频生成的一致性，能够生成最多40帧的视频。

Gen-L-Video方法能够生成和编辑数百帧的长视频，而无需额外训练，极大地拓宽了视频生成和编辑的能力。

这些模型在自动驾驶中用于生成高质量的长视频，提升自动驾驶模型的规划性能。

通过采用轻量级视觉扩散模型和层级扩散概念，可以在有限计算预算下生成更真实、更长的视频。

去噪扩散概率模型在多个数据集上实现了更好的视频建模，能够生成长达25分钟的时间连贯视频。

🏷️