SCBench:以KV缓存为中心的长上下文方法分析

📝

内容提要

本研究解决了长上下文大型语言模型(LLMs)在计算和内存效率方面的挑战,提出了SCBench作为全面的基准测试框架,专注于KV缓存的生成、压缩、检索和加载。研究发现,动态稀疏性在KV缓存中表现出更强的表达能力,同时强调了在多轮场景中,子O(n)内存方法的不足及关注分布转移问题的影响。

🏷️

标签

➡️

继续阅读