针对大型语言模型的通道级混合精度量化

本研究针对大型语言模型在边缘设备部署中的高内存需求问题，提出了一种新的通道级混合精度量化方法（CMPQ），该方法依据激活分布以通道为单位分配量化精度。实验结果表明，CMPQ在整数位量化任务中提升了性能，并在适度增加内存使用的情况下，实现了显著的性能提升，展现了其在不同设备能力下的适应性和有效性。

大型语言模型在小批量推断中遇到内存瓶颈。本文提出了一种基于权重的量化方案，特别是per-IC量化，通过在每个输入通道内创建量化组来减少激活异常值的影响。此外，提出了AdaDim框架，适应不同的权重敏感性模式，改进了Round-To-Nearest和GPTQ方法。在语言建模基准测试中，AdaDim在MMLU和HumanEval上分别提高了4.7%和10%。

AdaDim 内存瓶颈基准测试大型语言模型语言模型量化方案