袋鼠:无损自我推测解码技术双早期退出
原文中文,约400字,阅读约需1分钟。发表于: 。使用浅层子网络作为自草稿模型,采用早期停止方式提高令牌接受率,Kangaroo 算法在大型语言模型中实现了加速,并通过 Spec-Bench 的实验证明了其有效性。
本文介绍了一种改进的推测解码方法,旨在提高大型语言模型的效率。该方法结合了双模型推测解码和单模型方法Medusa的优势,通过采用轻量级的草稿头和循环依赖设计,结合波束搜索来过滤候选项。实证研究和综合分析验证了该方法的有效性。
使用浅层子网络作为自草稿模型,采用早期停止方式提高令牌接受率,Kangaroo 算法在大型语言模型中实现了加速,并通过 Spec-Bench 的实验证明了其有效性。
本文介绍了一种改进的推测解码方法,旨在提高大型语言模型的效率。该方法结合了双模型推测解码和单模型方法Medusa的优势,通过采用轻量级的草稿头和循环依赖设计,结合波束搜索来过滤候选项。实证研究和综合分析验证了该方法的有效性。