小红花·文摘

本文介绍了一种后训练量化方法，旨在提高大型语言模型的计算效率，特别是4位权重和8位激活的量化技术。通过激活量化感知缩放和序列长度感知校准等创新技术，显著提升了模型的准确度和硬件效率，解决了低精度微调中的异常值问题，增强了模型在实际应用中的可行性。