speculative-sampling笔记

speculative-sampling笔记

💡 原文中文,约1500字,阅读约需4分钟。
📝

内容提要

speculative-sampling是一种加速llm推理的方法,使用了小模型和大模型。它通过自回归采样预测下一个token,并使用拒绝采样公式进行采样。该方法可以与其他方法结合使用,并选择较小版本的目标语言模型作为草稿。

🎯

关键要点

  • 投机采样是一种加速LLM推理的方法。

  • 该方法使用两个模型:小模型(草稿模型)和大模型(目标模型)。

  • 投机采样基于一个直觉,即在某些序列中,下一个token的预测是明显的,小模型可以完成此任务。

  • 如果草稿模型和目标模型在明显序列上的分布一致性强,可以允许目标模型一次输出多个token。

  • 自回归采样用于预测下一个token。

  • 大模型的推理速度主要受线性层、注意力机制和通信的影响。

  • 拒绝采样的公式被修改为特定的数学表达式,用于采样过程。

  • 通过草稿模型先采样,然后并行计算多个概率分布。

  • 根据拒绝采样的条件决定是否将新token添加到序列中。

  • 如果所有token都被接受,则再采样一个token并结束。

  • 可以在应用拒绝采样方案之前使用标准采样方法进行概率修改。

  • 投机采样不改变transformer的结构,可以与其他方法结合使用,如量化和多查询注意力。

  • 选择草稿模型时,可以使用较小版本的目标语言模型,以获得较高的接受率。

➡️

继续阅读