量子位 ·

单GPU搞定高清长视频生成，效率×10！引入Mamba机制突破DiT瓶颈 | 普林斯顿&Meta

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

普林斯顿大学与Meta合作推出LinGen框架，通过MATE模块将视频生成复杂度降低至线性，显著提升生成效率。LinGen在视频质量上优于DiT，生成速度最高可加速15倍，且适应性强，能处理更长的token序列。

🎯

🔎

LinGen框架通过引入MATE模块，将视频生成的复杂度降低至线性，显著提升了生成效率。这一技术突破使得单GPU能够在分钟级别生成高质量视频，适应性强，尤其在处理长token序列时表现优异。

LinGen在视频质量和生成速度上均优于DiT，最高可实现15倍的加速。实验表明，LinGen在生成视频时的延迟显著低于DiT，尤其在资源有限的情况下，LinGen仍能保持对DiT的优势。

Mamba2模块在LinGen中发挥了关键作用，能够高效处理超长token序列，并兼容多种硬件加速。尽管Mamba在视觉任务上存在一定局限性，但LinGen通过创新的Rotary Major Scan和TEmporal Swin Attention有效缓解了信息丢失问题。

❓

LinGen框架通过MATE模块将视频生成复杂度降低至线性，显著提升生成效率。

LinGen在视频质量上与DiT、Gen-3、Luma Labs和Kling等先进模型进行比较，表现优异。

LinGen通过引入MATE模块和Rotary Major Scan优化，最高可实现15倍的生成速度提升。

Mamba2模块处理超长token序列，对硬件友好，提升了生成效率。

LinGen能够更快处理更长的token序列，适应性优于DiT，减少信息丢失。

LinGen从低分辨率视频生成开始，逐步增加视频分辨率和长度，处理的token数增长显著。

🏷️