speculative-sampling是一种加速llm推理的方法,使用了小模型和大模型。它通过自回归采样预测下一个token,并使用拒绝采样公式进行采样。该方法可以与其他方法结合使用,并选择较小版本的目标语言模型作为草稿。
完成下面两步后,将自动完成登录并继续当前操作。