小红花·文摘

本文提出了一种新算法——分阶段投机性解码，旨在加速小批量大型语言模型（LLM）的推断。该方法通过重组投机性批量为树结构并增加第二阶段解码，成功将解码延迟降低了3.16倍，同时保持输出质量。此外，研究还探讨了推测解码的训练方法，显著提高了模型的效率和性能。

BriefGPT - AI 论文速递 ·

该文介绍了在线传播框架和两种节点自适应传播方法，用于加速可扩展图神经网络的推断过程。同时，提出了Inception Distillation来平衡准确性和时延之间的平衡。实验结果表明，该方法优于现有的图推断加速方法。

BriefGPT - AI 论文速递 ·