超越投机游戏:大型语言模型中投机执行调查

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

该文章介绍了一种新颖的推理方案,用于加速大型语言模型。该方案通过草稿和验证两个阶段实现,草稿阶段生成草稿标记,验证阶段使用原始模型验证草稿输出标记。该方法不需要额外的神经网络训练和内存占用,是一种即插即用和经济高效的推理加速解决方案,加速比最高可达1.73倍。

🎯

关键要点

  • 提出了一种新颖的推理方案,自我推测解码,用于加速大型语言模型(LLMs)。
  • 该方法通过草稿和验证两个阶段实现推理加速。
  • 草稿阶段生成稍低质量但更快的草稿标记,选择性跳过某些中间层。
  • 验证阶段使用原始 LLM 验证草稿输出标记,确保输出质量与未经修改的 LLM 相同。
  • 该方法无需额外的神经网络训练和内存占用,经济高效且即插即用。
  • 与 LLaMA-2 及其微调模型的基准测试表明,加速比最高可达 1.73 倍。
➡️

继续阅读