Apple Machine Learning Research ·

镜像推测解码：打破大型语言模型推理中的串行障碍

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

本文介绍了镜像推测解码（Mirror-SD）算法，该算法通过并行处理和多令牌推测流来加速大型语言模型（LLM）的推理，打破了延迟与接受率之间的权衡。Mirror-SD在多种任务中实现了2.8到5.8倍的速度提升，并在性能上超越了现有基线EAGLE3，满足了快速高效推理的需求。

🎯

🔎

镜像推测解码（Mirror-SD）算法通过并行处理和多令牌推测流，显著提高了大型语言模型的推理速度。这种方法不仅打破了传统推理中的延迟与接受率之间的权衡，还在多种任务中实现了2.8到5.8倍的速度提升，展示了其在实际应用中的潜力。

Mirror-SD算法充分利用了异构加速器（如GPU和NPU），通过跨设备并行性来优化计算。这种计算映射策略能够有效降低推理延迟，适应不同硬件环境，提升了算法的灵活性和效率，尤其在边缘设备上具有重要意义。

通过增加推测流，Mirror-SD在每一步发出多个令牌，从而减少了推测延迟。这种创新不仅提高了推理效率，还确保了高接受率，使得算法在处理复杂任务时表现更加出色，值得关注其在未来应用中的发展潜力。

❓

镜像推测解码算法通过并行处理和多令牌推测流加速大型语言模型的推理，打破了延迟与接受率之间的权衡。

Mirror-SD在多种任务中实现了2.8到5.8倍的速度提升，并在性能上超越了现有基线EAGLE3。

Mirror-SD通过增加推测流，使得每一步发出多个令牌，从而进一步减少推测延迟。

Mirror-SD显式映射计算到异构加速器（GPU和NPU），充分利用跨设备并行性。

在SpecBench上，Mirror-SD在服务器规模的模型中实现了2.8x到5.8x的墙时速度提升。

推测流通过同时发出多个令牌和进行并行推测，形成两个互补的执行管道，从而提高推测效率。

🏷️