MagicDec:通过投机解码突破长上下文生成的延迟-吞吐量权衡
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该文章介绍了一种利用大型语言模型(LLM)的新算法,称为分阶段投机性解码,以加速小批量、设备上的LLM推断。通过改进投机性解码的前期工作,解决了小批量推断的低算术密度问题。该算法通过重新组织投机性批量为一棵树,并添加第二阶段的投机性解码,将单批解码延迟降低了3.16倍。使用了一个762M参数的GPT-2-L模型。
🎯
关键要点
- 提出了一种新算法——分阶段投机性解码,以加速小批量LLM推断。
- 改进了投机性解码的前期工作,解决了小批量推断的低算术密度问题。
- 将投机性批量重新组织为一棵树,降低生成成本,增加每批预期的标记数。
- 添加了第二阶段的投机性解码,进一步优化性能。
- 在保持输出质量的同时,将单批解码延迟降低了3.16倍,使用762M参数的GPT-2-L模型。
➡️