关键标记的重要性指标在 KV 缓存降低中,注意力分数不是唯一的所需:价值也很重要
原文中文,约200字,阅读约需1分钟。发表于: 。通过使用注意力得分和值向量的 L1 范数来评估令牌的重要性,我们提出了一种新的方法:Value-Aware Token Pruning (VATP),它在 LLMs 中表现出卓越的性能。
本文介绍了SqueezeAttention算法,通过确定关注层的重要性来优化关键值缓存的预算,并结合标记稀疏化算法来压缩关键值缓存。该算法在语言模型和基准测试中实现了内存减少和吞吐量提升。