Speculative decoding是一种优化技术,通过小型草稿模型加速大型LLM的推理。Speculators v0.3.0支持Eagle3草稿模型的端到端训练,简化训练流程并提升生成速度,特别适用于低吞吐量场景,减少模型延迟,提高性能。
本文介绍了镜像推测解码(Mirror-SD)算法,该算法通过并行处理和多令牌推测流来加速大型语言模型(LLM)的推理,打破了延迟与接受率之间的权衡。Mirror-SD在多种任务中实现了2.8到5.8倍的速度提升,并在性能上超越了现有基线EAGLE3,满足了快速高效推理的需求。
文章讨论了PD分离与引擎功能的适配,介绍了投机解码及其在大型自回归模型中的应用。通过引入小模型进行多次自回归,提升推理效率。探讨了Eagle 3的实现细节及其对推理性能的影响,得出礼貌性输入不影响推理性能的结论。
完成下面两步后,将自动完成登录并继续当前操作。