小红花·文摘

在AI Gateway上按成本、延迟或吞吐量对提供者进行排序

Vercel News ·

TTFT的含义：首次令牌时间对您的大型语言模型应用程序的启示

Redis Blog ·

LMCache 是一个开源项目，通过缓存 KV Cache 来降低模型生成第一个 token 的时间（TTFT），支持多种存储后端（内存、磁盘、Redis）。测试表明，使用 LMCache 后，TTFT 平均降低约 42%。

使用 lmcache 能显著改善模型推理的 TTFT

陈少文的博客 ·

KV预测以提高首次输出时间

Apple Machine Learning Research ·

LLM推理过程分为Prefill阶段和Decode阶段，Prefill阶段计算密集，Decode阶段生成token。评估指标为TTFT和TPOT，要求90%的请求的TTFT和TPOT值都小于等于0.4s和0.04s。PD分离优化了TTFT和TPOT指标，Prefill阶段限制Batch Size，Decode阶段增大Batch Size。

什么是 PD 分离

陈少文的博客 ·