FORA:扩散变压器加速中的快速前向缓存

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

Diffusion Transformers(DiT)在图像和视频生成方面表现出色,但自注意力的二次复杂度限制了计算效率。研究人员提出了DiTFastAttn,一种后训练压缩方法,通过减少冗余计算来提高计算效率。实验证明,该方法在图像生成任务中减少了高分辨率生成中高达88%的FLOPs,实现了1.6倍的加速。

🎯

关键要点

  • Diffusion Transformers(DiT)在图像和视频生成方面表现出色,但面临计算挑战。
  • 提出了DiTFastAttn,一种后训练压缩方法,用于减轻DiT的计算瓶颈。
  • 识别了DiT推理过程中注意力计算中的三种关键冗余:空间冗余、时间冗余和条件冗余。
  • 提出了三种技术来解决冗余:带残留缓存的窗口注意力、时间相似性减少和条件冗余消除。
  • DiTFastAttn在图像生成任务中减少了高分辨率生成中高达88%的FLOPs,实现了1.6倍的加速。