本文提出了一种新颖的自我推测解码方案,用于加速大型语言模型(LLMs)。该方法分为草稿和验证两个阶段,确保输出质量与原始模型一致。草稿阶段快速生成标记,验证阶段使用原始LLM进行确认。该方案无需额外训练,经济高效,基准测试显示加速比最高可达1.73倍。
完成下面两步后,将自动完成登录并继续当前操作。