ViDiT-Q: 图像和视频生成的扩散变压器的高效准确量化

💡 原文中文,约1800字,阅读约需5分钟。
📝

内容提要

本文介绍了针对扩散变换器(DiTs)的量化方法,包括混合浮点量化(HQ-DiT)和后训练量化(PTQ4DiT)。通过通道平衡和校准技术,实现高效量化,提升模型在低精度下的性能。此外,研究提出了多种量化框架和优化方法,显著提高了移动设备上的计算效率和准确性。

🎯

关键要点

  • 混合浮点量化(HQ-DiT)是一种后训练量化方法,使用4位浮点精度对权重和激活进行量化,性能影响最小。
  • 提出的后训练量化方法PTQ4DiT通过通道平衡和校准技术解决了扩散变换器中的量化挑战,实现了8位和4位权重精度的有效量化。
  • 量化视觉变换器压缩方法在ImageNet数据集上实现了高达80.9%的准确性,超过全精度模型1.0%的Top-1精度。
  • 提出的多精度后训练量化框架(MPTQ-ViT)在4位和5位量化的ViTs上显著提高了准确度。
  • 新提出的后训练量化方法显著提高了移动设备上高效混合视觉变换器的平均准确性(达到7.75%)。
  • 开发的混合精度量化框架MixDQ在保持W8A8品质的同时,实现了模型大小和内存成本的3-4倍减少。
  • 引入量化感知的低秩适配器QALoRA优化低位扩散模型的性能,显著提高时间和数据效率。
  • 提出的基于知识蒸馏的变异感知量化方法提高了经过量化的视觉变换器模型的准确性和训练效率。

延伸问答

什么是混合浮点量化(HQ-DiT)?

混合浮点量化(HQ-DiT)是一种后训练量化方法,使用4位浮点精度对权重和激活进行量化,旨在实现低精度量化且对性能影响最小。

PTQ4DiT方法如何解决扩散变换器中的量化挑战?

PTQ4DiT通过通道平衡和校准技术,解决了扩散变换器中的通道不平衡和时间变化问题,实现了8位和4位权重精度的有效量化。

量化视觉变换器压缩方法在ImageNet数据集上的表现如何?

该方法在ImageNet数据集上实现了高达80.9%的准确性,超过全精度模型1.0%的Top-1精度。

MixDQ框架的优势是什么?

MixDQ框架在保持W8A8品质的同时,实现了模型大小和内存成本的3-4倍减少,并加速了1.45倍的延迟。

如何提高移动设备上视觉变换器的计算效率?

通过提出新的后训练量化方法,显著提高了高效混合视觉变换器的平均准确性,达到7.75%。

知识蒸馏在量化中的作用是什么?

知识蒸馏的变异感知量化方法显著提高了经过量化的视觉变换器模型的准确性和训练效率。

➡️

继续阅读