小红花·文摘 - 小红花技术领袖俱乐部

LMCache 是一个开源项目，通过缓存 KV Cache 来降低模型生成第一个 token 的时间（TTFT），支持多种存储后端（内存、磁盘、Redis）。测试表明，使用 LMCache 后，TTFT 平均降低约 42%。

使用 lmcache 能显著改善模型推理的 TTFT

陈少文的博客 ·

通过LMCache和Redis实现更快的LLM推理和更低成本的响应

通过LMCache和Redis实现更快的LLM推理和更低成本的响应

Redis Blog ·

vLLM 是一款加速大语言模型推理的框架，解决了内存管理瓶颈，并支持 KV 缓存。文章介绍了如何使用 vLLM 和 LMCache 进行预填充和解码，包括环境变量设置和示例代码。

【vLLM 学习】Disaggregated Prefill Lmcache

HyperAI超神经 ·

vLLM 是一款加速大语言模型推理的框架，解决了内存管理瓶颈，实现了几乎零浪费的 KV 缓存。该框架支持 CPU 卸载和 LMCache，并提供示例代码和配置说明，方便用户进行实验和开发。

【vLLM 学习】Cpu Offload Lmcache

HyperAI超神经 ·