小红花·文摘

本文提出了一种新算法——分阶段投机性解码，旨在加速小批量设备上的大型语言模型推断。该方法通过重组投机性批量为树结构并引入第二阶段解码，在保持输出质量的同时，将解码延迟降低了3.16倍。此外，研究探讨了推测执行在大型语言模型中的应用及未来发展方向。