Apple Machine Learning Research ·

M2R2：多速率残差混合框架用于高效的变换器推理

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

残差变换提升了大型语言模型的表现力，但静态应用导致效率与生成质量的权衡不理想。我们提出了多速率残差混合框架（M2R2），通过动态调节残差速度来提高推理效率。评估结果显示，M2R2在推理任务中超越现有方法，实现最高2.9倍的加速，特别适合资源受限的环境。

🎯

🔎

M2R2框架通过动态调节残差速度，克服了静态残差变换在推理效率和生成质量之间的权衡。这种灵活性使得模型在不同复杂度的任务中能够自适应调整，从而提升整体性能，尤其在资源受限的环境中表现尤为突出。

与早期退出、跳过解码等现有方法相比，M2R2不仅考虑了令牌在模型层中的距离，还关注残差演变的速度。这一创新使得M2R2在推理任务中实现了更高的加速效果，尤其在自我推测解码设置中，表现出明显的优势。

M2R2特别适合在资源受限的环境中使用，如移动设备或边缘计算场景。然而，尽管其在推理效率上表现优越，仍需关注在极端复杂任务中的生成质量，确保在追求速度的同时不牺牲模型的表现力。

❓

多速率残差混合框架（M2R2）是一种动态调节残差速度以提高推理效率的框架。

M2R2通过动态调节残差速度来改善早期对齐，从而提升推理效率。

M2R2在推理任务中表现优越，超越现有方法，实现最高2.9倍的加速。

M2R2在生成质量和速度之间实现了更好的平衡，特别是在资源受限的环境中表现突出。

M2R2特别适合资源受限的环境，能够有效提升推理效率。

在自我推测解码设置中，M2R2在MT-Bench上实现了最高2.8倍的加速，超越了其他方法。

🏷️