小红花·文摘

研究发现大型语言模型中少数参数对性能有巨大影响，提出了一种新的参数优化方法CherryQ，通过高精度保存关键参数，将其他参数量化为低精度。实验证明CherryQ在困惑度和下游任务性能方面优于现有方法，3位量化模型性能与16位量化模型相媲美。显示了CherryQ在提高语言模型部署效率方面的潜力。