SEED: 通过计划的推测解码加速推理树构建
原文中文,约300字,阅读约需1分钟。发表于: 。这篇论文介绍了 SeeD,一种新颖而高效的推理框架,以同时优化运行时速度和 GPU 内存管理。通过采用预定的推测执行,SeeD 能够高效处理思维生成和状态评估的多次迭代,利用一种按轮次预定的策略来管理草稿模型的调度。在三个推理数据集上进行的广泛实验评估表明,SeeD 具有卓越的加速性能,为训练无关的预测解码中的批量推理提供了可行的路径。
本论文介绍了SeeD,一种高效的推理框架,能够同时优化运行速度和GPU内存管理。通过预定的推测执行和按轮次预定的策略,SeeD能够高效处理思维生成和状态评估的多次迭代。实验评估表明,SeeD具有卓越的加速性能,为训练无关的预测解码中的批量推理提供了可行的路径。