我们提出了一种单模型推测流方法,通过将草稿融入目标模型,并将微调目标改为未来n-gram预测,加速大模型推理。此方法在摘要和结构化查询任务中加速1.8-3.1倍,无质量损失,参数高效,比Medusa架构快且参数少10000倍,适合资源有限的设备。
本文探讨了推测解码在大型语言模型中的应用,提出了自适应推测解码和分阶段投机性解码等加速推理的方法。这些方法通过优化生成和验证过程,提高了推理速度和效率,显著降低了延迟,同时保持了输出质量。实验结果表明,推测解码在多个任务中实现了高达3.16倍的速度提升。
完成下面两步后,将自动完成登录并继续当前操作。