旋转运行平滑:无训练激活平滑器用于准确的INT4推理

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

大型语言模型在小批量推断中遇到内存瓶颈。本文提出了一种基于权重的量化方案,特别是sub-4 bit量化的挑战。通过per-IC量化和AdaDim框架,解决了激活异常值的问题。AdaDim适应不同权重敏感性,改进了Round-To-Nearest和GPTQ方法,在语言建模基准测试中表现优异,在MMLU和HumanEval上分别提高了4.7%和10%。

🎯

关键要点

  • 大型语言模型在小批量推断中面临内存瓶颈。

  • 提出了一种基于权重的量化方案,解决sub-4 bit量化的挑战。

  • 引入per-IC量化方法,创建每个输入通道的量化组以减轻异常值影响。

  • 提出AdaDim框架,适应不同权重敏感性模式。

  • 改进了Round-To-Nearest和GPTQ方法,展示了AdaDim的有效性。

  • 在MMLU和HumanEval基准测试中分别提高了4.7%和10%的性能。

➡️

继续阅读