量子位 ·

何必DiT！字节首次拿着自回归，单GPU一分钟生成5秒720p视频 | NeurIPS’25 Oral

💡 原文中文，约4300字，阅读约需11分钟。

📝

内容提要

字节跳动的InfinityStar方法在视频生成方面超越了DiT，速度提升10倍，单GPU可在一分钟内生成5秒720p视频。其核心在于时空金字塔建模，结合静态与动态信息，提高了生成效率和质量。

🎯

🔎

InfinityStar通过时空金字塔建模，将视频生成任务分解为首帧和后续片段，成功解耦静态外观与动态信息。这种设计不仅提升了生成效率，还显著提高了视频质量，展示了自回归模型在视频生成领域的潜力。

InfinityStar在生成速度上比DiT快了10倍，解决了DiT在计算复杂度和资源消耗上的挑战。这一进步意味着在实际应用中，InfinityStar能够更高效地满足用户对视频生成的需求，尤其是在实时生成场景中。

InfinityStar不仅支持文生图和文生视频，还能生成图生视频和交互式长视频。这种多任务能力使其在创意产业中具有广泛的应用前景，能够满足不同用户的需求，推动视频生成技术的进一步发展。

❓

InfinityStar方法在视频生成方面超越了DiT，速度提升10倍，能够在单GPU上生成5秒720p视频，仅需一分钟。

InfinityStar采用时空金字塔建模，结合静态与动态信息，成功解耦静态外观和动态信息，从而提高生成效率和质量。

InfinityStar支持文生图、文生视频、图生视频和交互式长视频生成等多种任务。

InfinityStar是首个在VBench上超越扩散模型的离散自回归视频生成器，而DiT需要20–100步去噪迭代，InfinityStar则是纯自回归“一条过”生成。

InfinityStar的核心设计是将视频分解为首帧和后续片段，分别处理静态外观和动态信息，以提高生成质量。

InfinityStar在文生图和文生视频任务上表现优异，超越了基于DiT的模型，尤其在位置和物体关系上展现出明显优势。

🏷️