何必DiT!字节首次拿着自回归,单GPU一分钟生成5秒720p视频 | NeurIPS’25 Oral
💡
原文中文,约4300字,阅读约需11分钟。
📝
内容提要
字节跳动的InfinityStar方法在视频生成方面超越了DiT,速度提升10倍,单GPU可在一分钟内生成5秒720p视频。其核心在于时空金字塔建模,结合静态与动态信息,提高了生成效率和质量。
🎯
关键要点
- 字节跳动的InfinityStar方法在视频生成方面超越了DiT,速度提升10倍。
- InfinityStar能够在单GPU上生成5秒720p视频,仅需一分钟。
- InfinityStar采用时空金字塔建模,结合静态与动态信息,提高生成效率和质量。
- InfinityStar是首个在VBench上超越扩散模型的离散自回归视频生成器。
- InfinityStar支持多种任务,包括文生图、文生视频、图生视频和交互式长视频生成。
- InfinityStar的核心设计将视频分解为首帧和后续片段,成功解耦静态外观和动态信息。
- InfinityStar引入高效的视觉分词器和优化的时空自回归Transformer以提升生成质量。
- InfinityStar在文生图和文生视频任务上表现优异,超越了基于DiT的模型。
- InfinityStar的生成速度显著快于同尺寸的基于DiT的方法,证明了离散自回归模型的优势。
❓
延伸问答
InfinityStar方法的主要优势是什么?
InfinityStar方法在视频生成方面超越了DiT,速度提升10倍,能够在单GPU上生成5秒720p视频,仅需一分钟。
InfinityStar是如何提高视频生成效率的?
InfinityStar采用时空金字塔建模,结合静态与动态信息,成功解耦静态外观和动态信息,从而提高生成效率和质量。
InfinityStar支持哪些视频生成任务?
InfinityStar支持文生图、文生视频、图生视频和交互式长视频生成等多种任务。
InfinityStar与DiT相比有什么显著区别?
InfinityStar是首个在VBench上超越扩散模型的离散自回归视频生成器,而DiT需要20–100步去噪迭代,InfinityStar则是纯自回归“一条过”生成。
InfinityStar的核心设计理念是什么?
InfinityStar的核心设计是将视频分解为首帧和后续片段,分别处理静态外观和动态信息,以提高生成质量。
InfinityStar在生成质量上表现如何?
InfinityStar在文生图和文生视频任务上表现优异,超越了基于DiT的模型,尤其在位置和物体关系上展现出明显优势。
➡️