高质量扩散模型的低比特浮点量化

💡 原文中文,约1600字,阅读约需4分钟。
📝

内容提要

本研究提出了一种统一的量化噪声和扩散扰动噪声的方法,显著提升了扩散模型的样本质量。通过引入量化感知的低秩适配器和新的后训练量化方法,优化了低位扩散模型的性能,解决了低位量化对模型性能的影响,展示了在资源有限场景中的优势。

🎯

关键要点

  • 本研究提出了一种统一的量化噪声和扩散扰动噪声的方法,显著提高了量化后扩散模型的样本质量。
  • 引入量化感知的低秩适配器QALoRA,优化低位扩散模型的性能,提升时间和数据效率。
  • 提出新的文本到图像扩散模型的后训练量化方法PCR,考虑量化误差和激活放松策略,几乎没有成本地提升性能。
  • 展示了量化模型在校准数据集之外的泛化性能,提出新的QDiffBench基准进行更准确的评估。
  • 结合量化感知训练和蒸馏方法,提出新的扩散模型量化方法,在CPU上实现高效推断能力。
  • 通过优化活化分布和关键量化层,解决低位量化对扩散模型性能的影响,实现高分辨率图像生成。
  • 提出BinaryDM,利用Learnable Multi-basis Binarizer和Low-rank Representation Mimicking,显著提高二元化感知优化的精度和效率。
  • 开发新的权重量化方法,将稳定扩散v1.5的UNet模型量化为1.99位,模型尺寸减小7.9倍,生成质量更好。
  • 提出时间步感知的纠正方法,解决低精度情况下的误差积累和偏差问题,取得优秀效果。

延伸问答

什么是量化感知的低秩适配器QALoRA?

QALoRA是一种引入量化感知的低秩适配器,用于优化低位扩散模型的性能,提升时间和数据效率。

如何提高扩散模型的样本质量?

通过提出统一的量化噪声和扩散扰动噪声的方法,可以显著提高量化后扩散模型的样本质量。

新的后训练量化方法PCR有什么特点?

PCR方法包括渐进校准策略和激活放松策略,几乎没有成本地提升文本到图像扩散模型的性能。

BinaryDM方法如何提高二元化感知优化的精度?

BinaryDM利用Learnable Multi-basis Binarizer和Low-rank Representation Mimicking来显著提高二元化感知优化的精度和效率。

如何解决低位量化对扩散模型性能的影响?

通过优化活化分布和关键量化层,可以有效解决低位量化对扩散模型性能的影响。

QDiffBench基准的作用是什么?

QDiffBench基准用于更准确地评估量化模型在校准数据集之外的泛化性能。

➡️

继续阅读