小红花·文摘

我们的研究发现了Transformer-based模型在后训练线性量化过程中准确性下降的原因，并提出了适用于量化的微调方法QuantTune。该方法通过调整权重来控制有问题激活的动态范围，从而在多种Transformer-based模型中实现了显著的后训练量化改进。