克洛弗:基于连续知识的逐渐式轻量级猜测解码
原文中文,约300字,阅读约需1分钟。发表于: 。Clover 是一种新的推理解码算法,将顺序知识融入并行解码过程中,提高了预测准确率和整体效率。实验证明,Clover 在 Baichuan-Small 和 Baichuan-Large 上分别比基准结果提高了最多 91% 和 146%,与之前效果最好的方法 Medusa 相比,在 Baichuan-Small 和 Baichuan-Large 上分别提高了最多 37% 和 57%。
这篇研究论文介绍了Sequoia算法,用于加速大型语言模型的推理。通过动态规划算法寻找最佳树结构,采样和验证方法实现鲁棒的推测性能,通过自动选择标记树大小和深度来优化硬件感知的树优化器。在A100上,解码速度分别提高了4.04倍、3.84倍和2.37倍,L40上的卸载速度提高了10.33倍。