ERQ:32位转5位仅掉些许精度,来看看两段式后训练量化 | ICML 2024 - 晓飞的算法工程笔记
原文中文,约14300字,阅读约需34分钟。发表于: 。后训练量化(PTQ)在视觉Transformer(ViTs)领域引起了广泛关注,因为它在模型压缩方面表现出了高效率。然而,现有的方法通常忽视了量化权重和激活之间复杂的相互依赖关系,导致了相当大的量化误差。论文提出了一种名为ERQ的两步PTQ方法,精心设计用于顺序降低激活和权重量化带来的量化误差。ER
后训练量化在视觉Transformer中受到关注,但现有方法常忽视权重和激活间的复杂依赖,导致量化误差。论文提出ERQ方法,通过减少激活和权重量化误差来优化。实验表明,ERQ在ViT-S上性能优于GPTQ,提升22.36%。