本研究提出一种新方法,通过引入离线协处理器增强关键值缓存,解决大型语言模型在处理复杂问题时生成离散标记序列导致的延迟和优化困难,从而降低困惑度并提升性能。
本文介绍了SqueezeAttention算法,通过确定关注层的重要性来优化关键值缓存的预算,并结合标记稀疏化算法来压缩关键值缓存。该算法在语言模型和基准测试中实现了内存减少和吞吐量提升。
完成下面两步后,将自动完成登录并继续当前操作。