通过提前退出进行投机解码以加速 LLM 推断,并采用汤普森抽样控制机制
📝
内容提要
在大型语言模型中,我们提出了一种新的方法,即具有无损加速的早期退出推理(EESD),通过在前 N 层后引入早期退出结构,利用语言模型的一部分生成初步令牌,并通过自蒸馏方法提高初步令牌的质量。我们还引入了一种新的采样机制,利用汤普森采样调节生成过程,自动确定每一轮的初步令牌数量。实验结果表明,与先前的方法相比,我们的方法在解码令牌时具有明显的加速效果。
🏷️
标签
➡️