旋转运行平滑:无训练激活平滑器用于准确的INT4推理
原文中文,约400字,阅读约需1分钟。发表于: 。本研究针对大规模语言模型在推理时的计算和内存成本问题,提出了一种新的无训练激活平滑方法。通过引入运行时平滑和旋转操作,能够有效减少激活中的异常值,显著提高INT4量化推理的准确性,并在LLaMA和Qwen模型中实现了优于现有技术的性能,WikiText-2困惑度从57.33降至6.66。
大型语言模型在小批量推断中遇到内存瓶颈。本文提出了一种基于权重的量化方案,特别是sub-4 bit量化的挑战。通过per-IC量化和AdaDim框架,解决了激活异常值的问题。AdaDim适应不同权重敏感性,改进了Round-To-Nearest和GPTQ方法,在语言建模基准测试中表现优异,在MMLU和HumanEval上分别提高了4.7%和10%。