EliteKV:通过RoPE频率选择和联合低秩投影实现可扩展的KV缓存压缩
📝
内容提要
本研究针对RoPE基础模型中的KV缓存优化难题,提出了EliteKV框架,支持可变的KV缓存压缩比。通过RoPElite识别每个注意力头的内在频率偏好,并对关键维度进行选择性线性恢复,实现了高效的KV缓存压缩,实验结果表明,该方法在仅使用0.6%的原始训练数据进行最小调整的情况下,可以将KV缓存大小减少75%,并在性能上保持微小的差距。
🏷️
标签
➡️