百度大脑 ·

PaddleMIX推出扩散模型推理加速工具箱Fast-Diffusers：自研缓存加速方案实现2倍+提速

💡 原文中文，约6700字，阅读约需16分钟。

📝

内容提要

飞桨PaddlePaddle推出扩散模型推理加速插件，利用模型蒸馏和推理缓存等技术，将推理速度提升超过2倍，同时保持生成质量。主要方法包括SortBlock、TeaBlockCache和FirstBlock-Taylor，开发者可灵活应用这些插件以优化实时应用。

🎯

扩散模型在高保真图像和视频生成上取得了显著成果，但推理阶段耗时巨大。
PaddleMIX推出Fast-Diffusers工具箱，通过模型蒸馏和推理缓存等技术提升推理速度。
推理缓存加速方案通过缓存模型某些层的中间输出，避免重复计算，节省计算资源。
SortBlock、TeaBlockCache和FirstBlock-Taylor是PaddleMIX推出的三种加速插件，能够在不影响生成质量的情况下实现2倍以上的推理加速。
SortBlock通过选择性更新相邻步骤之间变化最大的DiT块来减少冗余计算。
TeaBlockCache和FirstBlock-Taylor进一步细化了缓存策略，提升了推理效率。
PaddleMIX的加速插件在保持生成质量的同时，显著提高了推理速度，适用于实时应用。
开发者可以通过简单的配置或调用接口在现有模型中启用这些加速插件，无需修改模型代码。
未来，扩散模型推理高效化的需求将更加迫切，PaddleMIX将继续完善工具链以支持更广泛的应用。

🔎

扩散模型在生成高保真图像和视频时，推理阶段的计算开销极大，尤其是在高分辨率和视频生成的场景中，迭代推理的时间成本呈指数级增长。因此，如何在保持生成质量的同时提升推理速度，成为了当前研究的重点。

PaddleMIX推出的Fast-Diffusers工具箱通过模型蒸馏和推理缓存等技术，实现了推理速度的显著提升。特别是SortBlock、TeaBlockCache和FirstBlock-Taylor等插件，能够在不影响生成质量的前提下，灵活应用于不同场景，极大地提高了实时应用的可行性。

PaddleMIX的加速插件设计为即插即用，开发者只需通过简单的配置或调用接口即可在现有模型中启用，无需修改模型代码。这种便利性使得即使是对底层优化不熟悉的开发者，也能轻松实现推理加速，推动扩散模型的应用落地。

❓

Fast-Diffusers工具箱通过模型蒸馏和推理缓存等技术，将扩散模型的推理速度提升超过2倍，同时保持生成质量。

PaddleMIX推出的加速插件包括SortBlock、TeaBlockCache和FirstBlock-Taylor。

SortBlock插件通过选择性更新相邻步骤之间变化最大的DiT块，减少冗余计算，从而加速推理过程。

不需要，开发者只需通过简单的配置或调用接口即可启用加速插件，无需修改模型代码。

TeaBlockCache在Block级别保存输入快照，并根据变化情况决定是否复用缓存结果，从而提高推理效率。

PaddleMIX的加速插件在实现2倍以上的推理加速时，几乎不影响生成质量，SSIM值保持在高水平。

🏷️