小红花·文摘

本文提出了SqueezeAttention方法，通过动态优化关键值缓存，显著减少大型语言模型的内存占用（高达70%）并提升吞吐量（最高2.2倍）。该方法结合多种稀疏化算法，保持了与原始模型相当的性能，适用于资源受限环境。研究还探讨了无损压缩技术和自适应KV缓存，以进一步提高推理效率和性能。