本文介绍了大型语言模型(LLM)推理的两个阶段:预填充和解码。预填充阶段通过并行处理整个提示,计算并存储每个令牌的键(K)和值(V)。解码阶段逐个生成令牌,使用新令牌的查询(Q)与缓存的键和值进行计算,从而提高解码效率,特别是在处理长提示和生成响应时。
完成下面两步后,将自动完成登录并继续当前操作。