基于大型语言模型的生成推荐高效推理

该研究针对基于大型语言模型的生成推荐中推理延迟过高的问题，提出了一种名为AtSpeed的对齐框架，以优化生成推荐过程中的top-K序列对齐。此外，引入了一种放宽的采样验证策略，进一步减少了对大型语言模型的调用。实验结果表明，AtSpeed在严格top-K验证下实现了接近2倍的加速，放松采样验证下则可实现最高2.5倍的加速。

该研究提出AtSpeed对齐框架，通过优化top-K序列对齐和引入放宽采样验证策略，减少模型调用，从而降低大型语言模型生成推荐中的推理延迟。实验表明，在严格top-K验证下，AtSpeed加速近2倍，放松验证下最高可达2.5倍。

AtSpeed top-K序列加速大型语言模型推理延迟