克洛弗:基于连续知识的逐渐式轻量级猜测解码

BriefGPT - AI 论文速递 BriefGPT - AI 论文速递 ·

这篇研究论文介绍了Sequoia算法,用于加速大型语言模型的推理。通过动态规划算法寻找最佳树结构,采样和验证方法实现鲁棒的推测性能,通过自动选择标记树大小和深度来优化硬件感知的树优化器。在A100上,解码速度分别提高了4.04倍、3.84倍和2.37倍,L40上的卸载速度提高了10.33倍。

原文中文,约300字,阅读约需1分钟。
阅读原文