speculative-sampling笔记
原文中文,约1500字,阅读约需4分钟。发表于: 。speculative-sampling笔记 speculative-sampling,投机采样是一种加速llm推理的方法。 论文
speculative-sampling是一种加速llm推理的方法,使用了小模型和大模型。它通过自回归采样预测下一个token,并使用拒绝采样公式进行采样。该方法可以与其他方法结合使用,并选择较小版本的目标语言模型作为草稿。
speculative-sampling笔记 speculative-sampling,投机采样是一种加速llm推理的方法。 论文
speculative-sampling是一种加速llm推理的方法,使用了小模型和大模型。它通过自回归采样预测下一个token,并使用拒绝采样公式进行采样。该方法可以与其他方法结合使用,并选择较小版本的目标语言模型作为草稿。