本文介绍了一种改进的推测解码方法,结合了双模型推测解码和单模型方法Medusa的优势,采用了轻量级的草稿头设计,并使用波束搜索来过滤候选项。实证研究和综合分析验证了该方法的有效性。
完成下面两步后,将自动完成登录并继续当前操作。