本文提出了一种新的自适应推测解码策略,旨在提高大型语言模型(LLMs)的推理速度和GPU利用率。通过批处理和多候选验证算法,显著提升了候选标记的接受率,达到或超过传统解码性能。该方法在多个模型和数据集上表现出色,能够在不改变模型架构的情况下实现加速,提升解码效率。
本文探讨了推测解码在大型语言模型中的应用,提出了自适应推测解码和分阶段投机性解码等加速推理的方法。这些方法通过优化生成和验证过程,提高了推理速度和效率,显著降低了延迟,同时保持了输出质量。实验结果表明,推测解码在多个任务中实现了高达3.16倍的速度提升。
完成下面两步后,将自动完成登录并继续当前操作。