何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS’25 Oral
💡
原文中文,约4300字,阅读约需11分钟。
📝
内容提要
字节跳动的InfinityStar方法在视频生成方面超越了DiT,速度提升10倍,单GPU可在一分钟内生成5秒720p视频。其核心在于时空金字塔建模,结合静态与动态信息,提高了生成效率和质量。
🎯
关键要点
- 字节跳动的InfinityStar方法在视频生成方面超越了DiT,速度提升10倍。
- InfinityStar能够在单GPU上生成5秒720p视频,仅需一分钟。
- InfinityStar采用时空金字塔建模,结合静态与动态信息,提高生成效率和质量。
- InfinityStar是首个在VBench上超越扩散模型的离散自回归视频生成器。
- InfinityStar支持多种任务,包括文生图、文生视频、图生视频和交互式长视频生成。
- InfinityStar的核心设计将视频分解为首帧和后续片段,成功解耦静态外观和动态信息。
- InfinityStar引入高效的视觉分词器和优化的时空自回归Transformer以提升生成质量。
- InfinityStar在文生图和文生视频任务上表现优异,超越了基于DiT的模型。
- InfinityStar的生成速度显著快于同尺寸的基于DiT的方法,证明了离散自回归模型的优势。
➡️