针对大型语言模型的通道级混合精度量化
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
大型语言模型在小批量推断中遇到内存瓶颈。本文提出了一种基于权重的量化方案,特别是per-IC量化,通过在每个输入通道内创建量化组来减少激活异常值的影响。此外,提出了AdaDim框架,适应不同的权重敏感性模式,改进了Round-To-Nearest和GPTQ方法。在语言建模基准测试中,AdaDim在MMLU和HumanEval上分别提高了4.7%和10%。
🎯
关键要点
-
大型语言模型在小批量推断中面临内存瓶颈问题。
-
提出了一种基于权重的量化方案,特别是per-IC量化,以减少激活异常值的影响。
-
per-IC量化在每个输入通道内创建量化组,优于传统的每个输出通道量化。
-
提出了AdaDim框架,适应不同的权重敏感性模式。
-
AdaDim改进了Round-To-Nearest和GPTQ方法,展示了其有效性。
-
在MMLU和HumanEval基准测试中,AdaDim分别提高了4.7%和10%的性能。
➡️