陈少文的博客 ·

什么是 Prefix Cache

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

Prefix Cache 是一种通过检测请求公共前缀来复用计算结果的缓存机制，旨在提升推理性能。使用 Radix Tree 构建缓存时，建议将不变部分放在前面。测试结果显示启用缓存后性能有所提升，但缓存命中率仍需进一步优化。

🎯

❓

Prefix Cache 通过检测请求的公共前缀来复用计算结果，旨在提升推理性能。

建议将不变部分放在前面，变动部分放在后面，以提高缓存效率。

启用 Prefix Cache 后，性能有所提升，但缓存命中率仍然较低，需进一步优化。

使用命令 `python3 -m vllm.entrypoints.openai.api_server --enable-prefix-caching` 启动服务。

在禁用 Prefix Cache 的情况下，缓存命中率为 0%。

Prefix Cache 利用哈希、基数树等结构检测请求的公共前缀，在 prefill 阶段复用之前的计算结果。

🏷️

Netflix Serves 84% of Query Results from Cache with Interval-Aware Caching in Apache Druid
Netflix improves Apache Druid performance with interval aware caching, servin...
连接点滴以实现准确的人工智能
文章讨论了AI代理的知识背景及其重要性。Ryan与Neo4j的CTO Philip Rathle探讨了过时训练数据对企业模型的局限性，以及Graph RA...
为什么网络架构才是实时人工智能的真正制约因素
人工智能已成为企业的核心，但面临网络延迟和结构僵化的挑战。传统网络无法满足AI对高速数据流的需求，尤其是上行链路。企业需将推理引擎部署至数据源附近，以提高...
Qt文档MCP工具介绍
Qt文档MCP工具通过提供结构化API参考，减少了AI代理在搜索文档时的令牌消耗。与社区资源不同，MCP工具的答案来自Qt官方文档，确保信息准确。该工具具...
音频编解码器市场预计到2033年将达到120亿美元，年复合增长率达6.4%
全球音频编解码器市场正快速增长，预计到2026年将达到78亿美元，2033年约120亿美元，年均增长率为6.4%。主要驱动力包括5G普及和无线音频技术进步...
Markdown 已死，HTML 当立？
文章讨论了Markdown和HTML在AI时代的地位。Markdown因其简单和结构清晰，成为AI的主要工作语言；而HTML因信息密度高和交互性强，被认为...