本文提出了一种新算法——分阶段投机性解码,旨在加速小批量大型语言模型(LLM)的推断。该方法通过重组投机性批量为树结构并增加第二阶段解码,成功将解码延迟降低了3.16倍,同时保持输出质量。此外,研究还探讨了推测解码的训练方法,显著提高了模型的效率和性能。
该文介绍了在线传播框架和两种节点自适应传播方法,用于加速可扩展图神经网络的推断过程。同时,提出了Inception Distillation来平衡准确性和时延之间的平衡。实验结果表明,该方法优于现有的图推断加速方法。
完成下面两步后,将自动完成登录并继续当前操作。