BriefGPT - AI 论文速递 ·

高质量扩散模型的低比特浮点量化

💡 原文中文，约1600字，阅读约需4分钟。

📝

内容提要

本研究提出了一种统一的量化噪声和扩散扰动噪声的方法，显著提升了扩散模型的样本质量。通过引入量化感知的低秩适配器和新的后训练量化方法，优化了低位扩散模型的性能，解决了低位量化对模型性能的影响，展示了在资源有限场景中的优势。

🎯

本研究提出了一种统一的量化噪声和扩散扰动噪声的方法，显著提高了量化后扩散模型的样本质量。
引入量化感知的低秩适配器QALoRA，优化低位扩散模型的性能，提升时间和数据效率。
提出新的文本到图像扩散模型的后训练量化方法PCR，考虑量化误差和激活放松策略，几乎没有成本地提升性能。
展示了量化模型在校准数据集之外的泛化性能，提出新的QDiffBench基准进行更准确的评估。
结合量化感知训练和蒸馏方法，提出新的扩散模型量化方法，在CPU上实现高效推断能力。
通过优化活化分布和关键量化层，解决低位量化对扩散模型性能的影响，实现高分辨率图像生成。
提出BinaryDM，利用Learnable Multi-basis Binarizer和Low-rank Representation Mimicking，显著提高二元化感知优化的精度和效率。
开发新的权重量化方法，将稳定扩散v1.5的UNet模型量化为1.99位，模型尺寸减小7.9倍，生成质量更好。
提出时间步感知的纠正方法，解决低精度情况下的误差积累和偏差问题，取得优秀效果。

❓

QALoRA是一种引入量化感知的低秩适配器，用于优化低位扩散模型的性能，提升时间和数据效率。

通过提出统一的量化噪声和扩散扰动噪声的方法，可以显著提高量化后扩散模型的样本质量。

PCR方法包括渐进校准策略和激活放松策略，几乎没有成本地提升文本到图像扩散模型的性能。

BinaryDM利用Learnable Multi-basis Binarizer和Low-rank Representation Mimicking来显著提高二元化感知优化的精度和效率。

通过优化活化分布和关键量化层，可以有效解决低位量化对扩散模型性能的影响。

QDiffBench基准用于更准确地评估量化模型在校准数据集之外的泛化性能。

🏷️