我们的研究发现了Transformer-based模型在后训练线性量化过程中准确性下降的原因,并提出了适用于量化的微调方法QuantTune。该方法通过调整权重来控制有问题激活的动态范围,从而在多种Transformer-based模型中实现了显著的后训练量化改进。
完成下面两步后,将自动完成登录并继续当前操作。