OstQuant:通过正交和缩放变换优化大语言模型量化以更好地拟合分布
📝
内容提要
本文针对后训练量化(PTQ)中大语言模型(LLMs)量化面临的数据分布不均和重尾问题,提出了一种新颖的方法,即量化空间利用率(QSUR),用于评估变换后数据的量化能力。通过引入正交和缩放变换的学习等效转换,研究表明OSTQuant在多种LLMs和基准测试中表现优越,尤其在W4A4KV4配置下,减少了与最先进方法的性能差距32%。
🏷️
标签
➡️