FORA：扩散变压器加速中的快速前向缓存

Diffusion transformers 的推广应用因其可扩展性而成为生成高质量图像和视频的首选，但模型的增大导致了推理成本的提高，我们提出 Fast-FORward CAching（FORA），一种简单而有效的方法以降低计算开销并加速推广应用在实时应用中。

Diffusion Transformers（DiT）在图像和视频生成方面表现出色，但自注意力的二次复杂度限制了计算效率。研究人员提出了DiTFastAttn，一种后训练压缩方法，通过减少冗余计算来提高计算效率。实验证明，该方法在图像生成任务中减少了高分辨率生成中高达88％的FLOPs，实现了1.6倍的加速。