关键值缓存(KVCache)是现代大语言模型(LLM)服务的核心,存储过去的注意力状态以提高生成新标记的效率。LLM推理分为预填充和解码两个阶段。KVCache管理经历了从简单实现到2023年PagedAttention的演变,显著提升了内存利用率和并发请求能力。2024年,随着多模态模型的出现,KVCache的概念得到了进一步扩展。
完成下面两步后,将自动完成登录并继续当前操作。