QSpec:使用补充量化方案的投机解码

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

大型语言模型中提出了一种无损加速的早期退出推理方法(EESD),通过在前N层引入早期退出结构,利用部分模型生成初步令牌,并通过自蒸馏提高质量。新机制采用汤普森采样自动调节生成过程,实验显示解码时显著加速。

🎯

关键要点

  • 提出了一种无损加速的早期退出推理方法(EESD)。
  • 在前N层引入早期退出结构,利用部分模型生成初步令牌。
  • 通过自蒸馏方法提高初步令牌的质量。
  • 引入汤普森采样机制,自动调节生成过程。
  • 实验结果显示解码时显著加速。
➡️

继续阅读