实时视频生成的金字塔注意力广播
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
Diffusion Transformers(DiT)在图像和视频生成方面表现出色,但由于自注意力的二次复杂度而面临计算挑战。研究者提出了DiTFastAttn,一种后训练压缩方法,用于减轻DiT的计算瓶颈。通过减少空间冗余、利用时间相似性和消除条件冗余,DiTFastAttn在图像生成任务中实现了高达1.6倍的加速。
🎯
关键要点
- Diffusion Transformers(DiT)在图像和视频生成方面表现出色,但面临计算挑战。
- 提出了DiTFastAttn,一种后训练压缩方法,用于减轻DiT的计算瓶颈。
- 识别了DiT推理过程中注意力计算中的三个关键冗余:空间冗余、时间冗余和条件冗余。
- 提出了三种技术来解决冗余:带残留缓存的窗口注意力、时间相似性减少和条件冗余消除。
- DiTFastAttn在图像生成任务中实现了高达1.6倍的加速,并减少了高分辨率生成中高达88%的FLOPs。
➡️