ERQ:32位转5位仅掉些许精度,来看看两段式后训练量化 | ICML 2024 - 晓飞的算法工程笔记
💡
原文中文,约14300字,阅读约需34分钟。
📝
内容提要
后训练量化在视觉Transformer中受到关注,但现有方法常忽视权重和激活间的复杂依赖,导致量化误差。论文提出ERQ方法,通过减少激活和权重量化误差来优化。实验表明,ERQ在ViT-S上性能优于GPTQ,提升22.36%。
🎯
关键要点
- 后训练量化在视觉Transformer中受到关注,现有方法忽视权重和激活间的复杂依赖,导致量化误差。
- 论文提出ERQ方法,通过减少激活和权重量化误差来优化。
- ERQ方法分为两个步骤:激活量化误差减少(Aqer)和权重量化误差减少(Wqer)。
- Aqer将激活量化误差最小化问题形式化为岭回归问题,通过全精度更新权重解决。
- Wqer采用迭代方法减轻权重量化引起的误差,通过细化量化权重的舍入方向来实现。
- 实验表明,ERQ在W3A4 ViT-S上的性能优于最先进的GPTQ,提升幅度达22.36%。
- ERQ方法在图像分类、目标检测和实例分割等任务中证明了其有效性。
➡️