晓飞的算法工程笔记 ·

ERQ：32位转5位仅掉些许精度，来看看两段式后训练量化 | ICML 2024 - 晓飞的算法工程笔记

💡 原文中文，约14300字，阅读约需34分钟。

📝

内容提要

后训练量化在视觉Transformer中受到关注，但现有方法常忽视权重和激活间的复杂依赖，导致量化误差。论文提出ERQ方法，通过减少激活和权重量化误差来优化。实验表明，ERQ在ViT-S上性能优于GPTQ，提升22.36%。

🎯

🔎

后训练量化（PTQ）在视觉Transformer（ViTs）中面临着权重和激活之间复杂依赖关系的挑战。现有方法往往忽视这一点，导致量化误差显著。ERQ方法通过系统性地减少这些误差，展示了在模型压缩中的潜力，尤其是在资源受限的环境中，能够有效提升模型的部署效率。

ERQ方法的核心在于其两步策略：激活量化误差减少（Aqer）和权重量化误差减少（Wqer）。Aqer通过岭回归优化激活量化，而Wqer则采用迭代方法细化权重量化。这种创新的分步处理方式使得ERQ在减少量化误差方面表现优异，尤其在图像分类等任务中，提升幅度达22.36%。

ERQ在多种视觉任务中的实验结果表明，其在准确性和效率上的提升具有重要的实际意义。尤其是在图像分类、目标检测和实例分割等领域，ERQ的有效性为后续研究提供了新的方向，可能推动更多高效量化方法的开发，进一步优化深度学习模型的应用。

❓

ERQ方法的主要目标是通过减少激活和权重量化误差来优化后训练量化，从而提高视觉Transformer的性能。

ERQ通过将激活量化误差最小化问题形式化为岭回归问题，并使用全精度更新权重来解决。

实验表明，ERQ在W3A4 ViT-S上的性能优于最先进的GPTQ，提升幅度达22.36%。

ERQ方法的两个主要步骤是激活量化误差减少（Aqer）和权重量化误差减少（Wqer）。

ERQ采用迭代方法，通过细化量化权重的舍入方向来减轻权重量化引起的误差。

后训练量化在视觉Transformer中重要，因为它通过实现权重和激活的低位表示来减少模型复杂性，便于高效部署。

🏷️