小红花·文摘

本文提出了一种新颖的自我推测解码方案，用于加速大型语言模型（LLMs）。该方法分为草稿和验证两个阶段，确保输出质量与原始模型一致。草稿阶段快速生成标记，验证阶段使用原始LLM进行确认。该方案无需额外训练，经济高效，基准测试显示加速比最高可达1.73倍。