小红花·文摘

本文介绍了一种新型的多目标场景下的草稿模型部署方法，结合高效的排序投机解码机制，显著提高了大型语言模型的推理速度和吞吐量。通过引入语义自适应令牌和递归推测解码，优化了模型性能，降低了推理延迟，提升了生成质量。