超越 RAG:任务感知的 KV 缓存压缩以实现全面知识推理

📝

内容提要

本研究解决了现有大型语言模型在整合外部知识时的局限性,提出了一种任务感知的键值(KV)缓存压缩方法,能够在零样本或少样本设置下压缩外部知识,显著提高推理效率。实验结果表明,该方法在 LongBench v2 上比 RAG 提高了多达 7 个绝对点的准确性,同时推理延迟从 0.43 秒减少至 0.16 秒,展示了其在广泛知识任务中的优势。

🏷️

标签

➡️

继续阅读