通过指数竞赛进行推测性采样

📝

内容提要

本研究解决了推测性解码在加速大型语言模型推断过程中的效率问题,提出了一种将其与信道仿真相结合的新方法。通过信息论分析,我们明确了生成速度提升与草稿模型生成的token数量之间的关系,并提出了一种新的推测性解码方法ERDS,达到了当前最先进的性能。

➡️

继续阅读