EAGLE-3通过优化投机采样,将大语言模型的推理速度提升了6.5倍,同时保持输出分布不变。该方法结合不同层级的信息,增强了生成多个token的能力,实验结果在多项任务中表现优异。
DeepMind团队结合水印技术与投机采样,提升大语言模型的推理效率。研究发现水印强度与采样效率之间存在权衡,需根据需求选择优先目标。
投机采样是一种加速大语言模型推理的方法,利用小模型(草稿模型)和大模型(目标模型)实现高效输出。该方法通过在明显序列上保持一致性,允许目标模型一次输出多个token,并修改了拒绝采样公式,结合标准采样方法,提高了接受率,且可与量化和多查询注意力等技术结合使用。
完成下面两步后,将自动完成登录并继续当前操作。