Apple Machine Learning Research ·

“超级权重”：单个参数如何决定大型语言模型的行为

💡 原文英文，约1200词，阅读约需5分钟。

📝

内容提要

苹果研究人员的论文指出，少量“超级权重”在大型语言模型（LLM）中对功能影响显著。识别这些权重有助于模型压缩，提升资源受限设备的性能。研究表明，保留超级权重和激活可显著改善压缩质量，推动未来研究。

🎯

🔎

研究表明，超级权重在大型语言模型中扮演着至关重要的角色。即使是极少数的超级权重，其变化也能显著影响模型生成连贯文本的能力。这一发现强调了在模型压缩过程中，保留这些关键参数的重要性，以避免模型性能的显著下降。

通过识别和保留超级权重及其对应的超级激活，研究者们能够在压缩大型语言模型时实现更高的效率。这种方法不仅可以减少计算资源的消耗，还能在资源受限的设备上保持较高的模型性能，为未来的应用提供了新的可能性。

本研究为未来的探索提供了新的视角，特别是在理解超级权重和超级激活的机制方面。深入研究这些参数的形成及其在训练过程中的作用，可能会推动更高效和可解释的模型设计，进而提升大型语言模型的应用潜力。

❓

超级权重是指在大型语言模型中少量的参数，这些参数对模型的整体功能有显著影响。它们的存在和保留对模型的质量至关重要。

可以通过单次前向传播的方法来定位超级权重，利用超级激活的稀有性和大幅度来检测特定模型组件的输入和输出激活分布的峰值。

改变超级权重会显著影响模型生成连贯文本的能力，可能导致输出质量下降，甚至使模型的输出变得无意义。

保留超级权重在压缩过程中至关重要，因为它们的存在可以显著改善压缩质量，确保模型在资源受限设备上的性能。

超级激活是指与超级权重相关的稀有且大幅度的激活，它们在模型的前向传播中起到重要作用，并影响模型的内部动态。

未来的研究可以深入探索超级权重和超级激活的机制，以改进模型设计和训练策略，提升大型语言模型的效率和可解释性。

🏷️