Sequoia:可伸缩、稳健且硬件感知的推测解码
原文中文,约400字,阅读约需1分钟。发表于: 。这篇研究论文介绍了 Sequoia,一种可扩展、稳健且硬件感知的算法,用于大型语言模型的推理加速。通过引入动态规划算法来寻找被推测的标记的最佳树结构,通过采样和验证方法实现鲁棒的推测性能,以及通过自动选择给定硬件平台的标记树大小和深度来优化硬件感知的树优化器,Sequoia 提高了 Llama2-7B、Llama2-13B 和 Vicuna-33B 在 A100 上的解码速度,分别达到...
本研究介绍了Sequoia算法,用于加速大型语言模型的推理。通过动态规划算法找到最佳树结构,采样和验证方法实现鲁棒的推测性能,通过自动选择硬件平台的标记树大小和深度来优化硬件感知的树优化器。在A100上,解码速度提高了4.04倍、3.84倍和2.37倍,并在L40上将卸载速度提高了10.33倍。