小红花·文摘

该文章介绍了一种新的算法，利用大型语言模型（LLM）进行分阶段投机性解码，以加速小批量、设备上的LLM推断。通过改进前期工作，解决了小批量推断的低算术密度问题。该算法通过重新组织投机性批量为一棵树，并添加第二阶段的投机性解码，将单批解码延迟降低了3.16倍。