机器之心 ·

Apple Teaches Large Models to Be Lazy: Faster Generation of the First Token While Maintaining Accuracy

💡 原文日文，约4600字，阅读约需11分钟。

📝

内容提要

苹果和Meta AI的研究团队提出了一种名为LazyLLM的新方法，可以在保持准确度的情况下提高Llama 2预填充阶段的推理速度。LazyLLM通过渐进式剪枝和辅助缓存来实现。实验结果表明，LazyLLM在加速推理方面表现优异，同时准确度下降可以忽略不计。LazyLLM的优势包括适用范围广、无需训练、效果好。

🎯

关键要点

苹果和Meta AI提出LazyLLM方法，提高Llama 2推理速度。
LazyLLM通过渐进式剪枝和辅助缓存实现推理加速。
LazyLLM在保持准确度的同时，推理速度提升超过2倍。
标准LLM推理过程分为预填充和解码两个阶段。
优化TTFT（首个token时间）是提高LLM推理效率的关键。
LazyLLM动态剪枝，允许在不同生成步骤选择不同token子集。
LazyLLM从第一轮迭代开始只计算重要token，减少计算量。
Aux Cache保存被剪枝token的隐藏状态，避免重复计算。
实验结果显示LazyLLM在TTFT加速方面表现优异，准确度下降可忽略。
LazyLLM在生成过程中未使用所有prompt中的token，提供额外加速。
后期层剪枝对模型性能影响较小，渐进式剪枝效果显著。

❓

延伸问答

LazyLLM方法是如何提高Llama 2的推理速度的？

LazyLLM通过渐进式剪枝和辅助缓存来提高Llama 2的推理速度，允许在不同生成步骤选择不同的token子集，从而减少计算量。

LazyLLM在保持准确度方面表现如何？

实验结果表明，LazyLLM在加速推理的同时，准确度下降可以忽略不计。

LazyLLM的优势是什么？

LazyLLM的优势包括适用范围广、无需训练和效果好，能够显著提升推理速度。

LazyLLM是如何处理剪枝token的？

LazyLLM在每个生成步骤使用逐层token剪枝，通过注意力图确定输入token对预测的影响，从而动态选择重要token。

LazyLLM与标准LLM相比有什么不同？

LazyLLM在推理过程中不使用所有prompt中的token，而是通过剪枝减少计算量，从而加速推理，且准确度保持较高。

LazyLLM的Aux Cache有什么作用？

Aux Cache保存被剪枝token的隐藏状态，避免在后续计算中重复计算，从而提高推理效率。

🏷️