土法炼钢兴趣小组的博客 ·

【大模型基础设施工程】12：PagedAttention 与 Continuous Batching

💡 原文中文，约26400字，阅读约需63分钟。

📝

内容提要

本文讨论了大语言模型（LLM）推理引擎的现代化技术，包括连续批处理和分页注意力。这些技术显著提升了LLM的吞吐量和GPU利用率，同时优化了显存利用率。文章还介绍了分块预填充和前缀缓存等策略，以降低延迟和提高效率，强调在生产环境中应用这些技术的重要性。

🎯

❓

PagedAttention技术通过虚拟内存管理解决了KV缓存的显存碎片问题，提高了显存利用率。

连续批处理通过迭代级调度优化请求处理，减少了GPU空转时间，从而提高了GPU利用率。

Chunked Prefill技术将长预填充切块，与解码请求混合，降低了延迟波动，提高了系统的响应速度。

建议开启前缀缓存和分块预填充，以优化性能和资源利用。

Priority Scheduling通过抢占和重计算优化请求处理，确保高优先级请求能够及时得到处理。

vLLM v1版本重写了调度器，提升了吞吐量和降低了延迟，增强了引擎的整体性能。

🏷️

[译] 我所知道的全部智能体工程技巧（2026 年 6 月）
本文探讨了智能体工程的技巧，强调使用计划文件和智能体协作来提高工作效率。作者分享了通过语音输入、并行处理和自动化工具简化开发流程的经验，建议将想法转化为计...
存之有序，治之有矩——Agent 记忆系统的工程实践与演进
本文探讨了Agent记忆系统的工程实践与演进，分析了记忆写入纪律、Prompt Cache冲突、跨模型容量、Embedding迁移及Agent自产Skil...
我们在2026年5月发布的最新AI新闻
May AI recap
How OpenAI Built a Secure Windows Sandbox for Codex Agents
OpenAI details Codex Windows sandbox architecture, showing how SIDs, ACLs, re...
MAHA希望将棉花打造成新的牛脂
美国农业部推出“伟大的美国棉花计划”，旨在推广本土棉花，支持农民和国内制造业。尽管消费者对天然纤维服装的兴趣上升，但棉花生产面临高成本和化学品使用问题，且...
深入探讨语言模型的校准：Platt缩放、等距回归与温度缩放
大型语言模型（LLMs）普遍存在误校准问题，导致信心分数与实际正确率不符。传统的后处理校准方法包括温度缩放、Platt缩放和等距回归，但由于LLMs的复杂...