旋转运行平滑：无训练激活平滑器用于准确的INT4推理

本研究针对大规模语言模型在推理时的计算和内存成本问题，提出了一种新的无训练激活平滑方法。通过引入运行时平滑和旋转操作，能够有效减少激活中的异常值，显著提高INT4量化推理的准确性，并在LLaMA和Qwen模型中实现了优于现有技术的性能，WikiText-2困惑度从57.33降至6.66。

大型语言模型在小批量推断中遇到内存瓶颈。本文提出了一种基于权重的量化方案，特别是sub-4 bit量化的挑战。通过per-IC量化和AdaDim框架，解决了激活异常值的问题。AdaDim适应不同权重敏感性，改进了Round-To-Nearest和GPTQ方法，在语言建模基准测试中表现优异，在MMLU和HumanEval上分别提高了4.7%和10%。

AdaDim 内存瓶颈基准测试语言模型量化方案