重新思考通道维度,以隔离大型语言模型低比特权重量化中的异常值

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

本文提出了 per-IC 量化和 AdaDim 两种基于权重的量化方案,以解决大型语言模型在小批量推断设置下的内存瓶颈问题。AdaDim 在基础的语言建模基准测试和指导性调优的 LLMs 中都取得了显著的改进效果。

🎯

关键要点

  • 大型语言模型(LLMs)在小批量推断设置下面临内存瓶颈问题。

  • 提出了基于权重的量化方案以解决内存瓶颈。

  • sub-4 bit 量化存在激活异常值的挑战。

  • per-IC 量化方法在每个输入通道内创建量化组,效果显著。

  • AdaDim 是一种多功能量化框架,适应各种权重敏感性模式。

  • AdaDim 在基础语言建模基准测试和指导性调优的 LLMs 中取得显著改进效果,MMLU 提升最高 +4.7%,HumanEval 提升最高 +10%。

➡️

继续阅读