推测解码是一种加速大型语言模型推理的技术,通常需要对草稿模型和目标模型进行微调,以提高接受率。该论文在2024年NeurIPS的ENLSP研讨会上被接受。
完成下面两步后,将自动完成登录并继续当前操作。