小红花·文摘 - 小红花技术领袖俱乐部

本研究提出DBudgetKV方法，解决大型语言模型推理中的KV缓存压缩问题，确保缓存性能完美，平均压缩比超过25%。

DBudgetKV: The Application of Dynamic Budgeting in KV Cache Compression to Ensure Optimal Performance

BriefGPT - AI 论文速递 ·