小红花·文摘

ALISA是一种优化大型语言模型KV缓存的算法，通过SqueezeAttention等方法实现了30%至70%的内存减少和吞吐量提升。新方法GemFilter和SimLayerKV有效降低内存需求，同时保持模型准确性。ShadowKV系统在不牺牲精度的情况下显著提高了推理速度和性能。

BUZZ：采用分段重心的蜂窝结构稀疏KV缓存以提高大语言模型推理效率

BriefGPT - AI 论文速递 ·

本文提出了一种高效的大型语言模型推理解决方案，通过简化模型结构和使用自适应KV缓存等方法，显著降低系统延迟并提高吞吐量。在Intel GPU上，令牌延迟降低高达7倍，吞吐量提升27倍。研究还介绍了PagedAttention算法和SparQ Attention，以减少内存消耗和提高推理效率，同时保持生成质量。

ALISA: 加速大型语言模型推理的稀疏感知键值缓存

BriefGPT - AI 论文速递 ·