重新思考通道维度,以隔离大型语言模型低比特权重量化中的异常值
原文中文,约500字,阅读约需2分钟。发表于: 。大型语言模型(LLMs)在各种任务中取得了显著的成功,但在小批量推断设置下(例如移动设备),有效地为 LLMs 提供服务一直是一个挑战,因为其存在着大量的内存瓶颈。本文提出了一种量化方案,即基于权重的量化,但是 sub-4 bit 量化仍然是一个挑战,因为存在大幅度的激活异常值。为了减轻不良的异常值效应,我们首先提出了 per-IC...
本文提出了 per-IC 量化和 AdaDim 两种基于权重的量化方案,以解决大型语言模型在小批量推断设置下的内存瓶颈问题。AdaDim 在基础的语言建模基准测试和指导性调优的 LLMs 中都取得了显著的改进效果。