KOALA：通过多层草稿头与对抗学习增强LLM的推测解码

本文针对大型语言模型在自回归解码中存在的高推理延迟问题，提出了一种名为KOALA的新方法。该方法通过将单层草稿头转换为多层结构，并引入对抗学习，显著提高了草稿头的后续标记预测准确性。研究结果表明，KOALA在提高推测解码效率的同时，仍然保持较小的草稿开销，最终实现了推测解码比原草稿头快10.57%-14.09%的速度提升。

本文研究了在多语言环境中部署大语言模型时的推理时间限制，并提出了使用推测解码的助理模型的训练方法。通过有针对性的预训练和微调策略，优化了专门针对语言的草拟模型，显著减少了推理时间。验证了这些模型在推理时间、领域外优化和GPT-4o评估等方面的效果。

llm 多语言环境大语言模型推测解码推理时间训练方法