Modular Blog ·

模块化：KVCache的五个时代

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

关键值缓存（KVCache）是现代大语言模型（LLM）服务的核心，存储过去的注意力状态以提高生成新标记的效率。LLM推理分为预填充和解码两个阶段。KVCache管理经历了从简单实现到2023年PagedAttention的演变，显著提升了内存利用率和并发请求能力。2024年，随着多模态模型的出现，KVCache的概念得到了进一步扩展。

🎯

关键要点

关键值缓存（KVCache）是现代大语言模型（LLM）服务的核心，存储过去的注意力状态以提高生成新标记的效率。
LLM推理分为预填充和解码两个阶段，预填充阶段计算输入提示中每个标记的注意力状态，解码阶段逐个生成新标记。
KVCache管理经历了从简单实现到2023年PagedAttention的演变，显著提升了内存利用率和并发请求能力。
在2017年之前，深度学习主要由无状态的前馈架构主导，KVCache的概念并不存在。
2017年，原始变换器架构的出现需要KVCache来有效跟踪与每个请求相关的状态，早期的实现方式存在内存浪费问题。
2023年，PagedAttention的引入通过动态分配固定大小的KV页面，显著改善了内存利用率和减少了碎片化。
PagedAttention成为LLM服务的事实标准，推动了新的推理引擎的出现。
2024年，随着多模态和混合模型的出现，KVCache的概念得到了进一步扩展，要求不同类型的状态和缓存需求。

🏷️

继续阅读

什么是 AI，什么是大语言模型，缺点分析，以及使用技法和技巧总结
人工智能（AI）是让机器模仿人类智能的技术，大语言模型（LLM）是其新分支，能够生成文本。LLM基于统计和概率生成语言，但缺乏理解力和意识，可能出现“AI...
彻底告别VE与VAE！商汤硬核重构多模态：砍掉所有中间编码器
商汤科技与南洋理工大学推出NEO-unify，重构多模态模型，去除视觉编码器和变分自编码器，实现统一的端到端架构。该模型通过混合变换器架构，提升视觉与语言...
一分钟读论文：《文言文100%破解大模型，ICLR2026曝重大安全漏洞》
一项研究表明，古典文言文能够成功“越狱”现代大语言模型，攻击成功率达到100%。研究团队开发的CC-BOS框架利用古代智慧和生物启发算法，揭示了古典语言在...
从第一位程序员到 AI 时代的领航者：代码世界里的“她”力量
文章探讨了女性在计算机科学历史中的重要角色，强调她们在编程领域的贡献。尽管早期编程被视为女性工作，但随着行业发展，女性比例逐渐下降。提到Ada Lovel...
AI 时代的人类处境：科技、宗教与生命意义的重构
在AI时代，科技与宗教的关系需重新审视。科技改变人与世界的互动，但无法消解人类对意义和死亡的思考。宗教应超越消费，关注真实修行。科学与宗教的关系可视为对立...
Vibe Coding 时代的极简密钥管理：我开源了一个基于 Cloudflare 的轻量级 KMS
“Vibe Coding” 提高了开发效率，但也带来了安全隐患。为保护敏感信息，作者开发了基于 Cloudflare Worker 的开源项目 meath...

模块化：KVCache的五个时代

内容提要

关键要点

标签

继续阅读