小红花·文摘

本文提出了一种新的自适应推测解码策略，旨在提高大型语言模型（LLMs）的推理速度和GPU利用率。通过批处理和多候选验证算法，显著提升了候选标记的接受率，达到或超过传统解码性能。该方法在多个模型和数据集上表现出色，能够在不改变模型架构的情况下实现加速，提升解码效率。

BriefGPT - AI 论文速递 ·

本文探讨了推测解码在大型语言模型中的应用，提出了自适应推测解码和分阶段投机性解码等加速推理的方法。这些方法通过优化生成和验证过程，提高了推理速度和效率，显著降低了延迟，同时保持了输出质量。实验结果表明，推测解码在多个任务中实现了高达3.16倍的速度提升。

BriefGPT - AI 论文速递 ·