本文讨论了大型语言模型(LLM)请求的两个阶段:预填充和解码。预填充阶段处理整个提示,受限于计算能力;解码阶段逐个生成令牌,受限于内存带宽。优化策略需根据这两个阶段的特性进行调整,以提高响应速度。使用Redis的语义缓存可以在缓存命中时绕过推理过程,消除预填充和解码的成本。
本文介绍了大型语言模型(LLM)推理的两个阶段:预填充和解码。预填充阶段通过并行处理整个提示,计算并存储每个令牌的键(K)和值(V)。解码阶段逐个生成令牌,使用新令牌的查询(Q)与缓存的键和值进行计算,从而提高解码效率,特别是在处理长提示和生成响应时。
完成下面两步后,将自动完成登录并继续当前操作。