本文介绍了SqueezeAttention算法,通过确定关注层的重要性来优化关键值缓存的预算,并结合标记稀疏化算法来压缩关键值缓存。该算法在语言模型和基准测试中实现了内存减少和吞吐量提升。
完成下面两步后,将自动完成登录并继续当前操作。