💡
原文中文,约1500字,阅读约需4分钟。
📝
内容提要
speculative-sampling是一种加速llm推理的方法,使用了小模型和大模型。它通过自回归采样预测下一个token,并使用拒绝采样公式进行采样。该方法可以与其他方法结合使用,并选择较小版本的目标语言模型作为草稿。
🎯
关键要点
-
投机采样是一种加速LLM推理的方法。
-
该方法使用两个模型:小模型(草稿模型)和大模型(目标模型)。
-
投机采样基于一个直觉,即在某些序列中,下一个token的预测是明显的,小模型可以完成此任务。
-
如果草稿模型和目标模型在明显序列上的分布一致性强,可以允许目标模型一次输出多个token。
-
自回归采样用于预测下一个token。
-
大模型的推理速度主要受线性层、注意力机制和通信的影响。
-
拒绝采样的公式被修改为特定的数学表达式,用于采样过程。
-
通过草稿模型先采样,然后并行计算多个概率分布。
-
根据拒绝采样的条件决定是否将新token添加到序列中。
-
如果所有token都被接受,则再采样一个token并结束。
-
可以在应用拒绝采样方案之前使用标准采样方法进行概率修改。
-
投机采样不改变transformer的结构,可以与其他方法结合使用,如量化和多查询注意力。
-
选择草稿模型时,可以使用较小版本的目标语言模型,以获得较高的接受率。
🏷️
标签
➡️