PaddleMIX推出扩散模型推理加速工具箱Fast-Diffusers:自研缓存加速方案实现2倍+提速

FirstBlock-Taylor在Taylorseer的基础上将统一的缓存策略改为借鉴ParaAttention使用firstblock进行判断的启发式预测策略,具体来说:就是推理阶段的每一步时,我们会判断当前步是否能使用taylorseer进行预测,通过比较上一步与当前步第一个block的输出输入的残差相似度,如果相似度低于阈值,则我们觉得当前步可以复用缓存使用taylor扩展进行预测,...

飞桨PaddlePaddle推出扩散模型推理加速插件,利用模型蒸馏和推理缓存等技术,将推理速度提升超过2倍,同时保持生成质量。主要方法包括SortBlock、TeaBlockCache和FirstBlock-Taylor,开发者可灵活应用这些插件以优化实时应用。

原文中文,约6700字,阅读约需16分钟。发表于:
阅读原文