本研究提出了一种新方法,通过增强大型语言模型的关键值缓存,解决其在处理复杂问题时的延迟和优化困难。该方法使模型能够以可微分的方式学习提炼额外计算,从而显著降低推理任务中的困惑度并提高性能。
本研究提出了多种针对大型语言模型(LLMs)关键值缓存的量化方法,如KIVI和WKVQuant,显著提高了内存效率和推理性能。通过动态保留重要键值对,内存使用减少了70%,缓存压缩比高达10倍。这些方法在LLaMA、Falcon等模型上表现优异,推动了更长上下文应用的可能性。
完成下面两步后,将自动完成登录并继续当前操作。