DiTAS:通过增强激活平滑对扩散变压器进行量化

💡 原文中文,约1900字,阅读约需5分钟。
📝

内容提要

本文提出了多种针对扩散变换器(DiTs)的量化方法,包括EfficientDM、PTQ4DiT和VQ4DiT。这些方法通过量化感知训练和后训练量化技术,在保持图像生成质量的同时,显著降低了计算成本和模型大小,适用于边缘设备的高效推理。

🎯

关键要点

  • 提出了一种数据自由且参数高效的优化方法EfficientDM,通过量化感知的低秩适配器QALoRA实现QAT级别的性能与PTQ的效率相似。
  • 提出了针对具有transformer的三态扩散模型的量化感知训练(QAT)和有效部署方案TerDiT,展示了从头开始训练极低比特扩散变压器模型的可行性。
  • 提出了一种特定的后训练量化方法PTQ4DiT,通过Channel-wise Salience Balancing和Spearmen's ρ-guided Salience Calibration解决DiTs中的通道不平衡和时间变化的挑战。
  • 提出了ViDiT-Q方法,实现无损W8A8量化,ViDiT-Q-MP实现W4A8,且视觉质量几乎没有下降。
  • 提出了一种结合精细化量化、自动搜索策略和动态激活量化的Q-DiT方法,以处理DiT模型中的权重和激活的巨大变化。
  • 提出了一种新颖的后训练向量量化方法VQ4DiT,通过优化权重分配与码本校准,提高了量化效率和图像生成质量。

延伸问答

什么是EfficientDM,它的主要优势是什么?

EfficientDM是一种数据自由且参数高效的优化方法,通过量化感知的低秩适配器QALoRA实现QAT级别的性能与PTQ的效率相似,显著优化低位扩散模型的性能。

PTQ4DiT方法是如何解决扩散变换器中的量化挑战的?

PTQ4DiT通过Channel-wise Salience Balancing和Spearmen's ρ-guided Salience Calibration解决通道不平衡和时间变化的挑战,降低计算成本,实现有效的量化。

ViDiT-Q方法的主要成就是什么?

ViDiT-Q实现了无损的W8A8量化,ViDiT-Q-MP则实现了W4A8量化,几乎没有视觉质量下降,优化了内存和延迟。

Q-DiT方法是如何处理DiT模型中的权重和激活变化的?

Q-DiT结合精细化量化、自动搜索策略和动态激活量化,以实现高效、高质量的量化和图像生成。

VQ4DiT方法的创新之处在哪里?

VQ4DiT通过优化权重分配与码本校准,显著提高了量化效率和图像生成质量,能够将权重量化到2位精度。

TerDiT方案的目标是什么?

TerDiT旨在探索大规模DiT模型的高效部署策略,展示从头训练极低比特扩散变压器模型的可行性,同时保持竞争力的图像生成能力。

➡️

继续阅读