Apple Machine Learning Research ·

大型语言模型中的超级权重

💡 原文英文，约200词，阅读约需1分钟。

📝

内容提要

研究表明，大型语言模型中的少量异常参数对模型质量至关重要。修剪这些参数可能显著降低文本生成能力。我们提出了一种无数据的方法来识别这些“超级权重”，并发现它们会导致罕见的大激活异常。保留这些激活可以提升量化效果，并提供常见LLM的超级权重坐标索引。

🎯

🔎

研究表明，大型语言模型中的少量异常参数，即超级权重，对模型的整体性能至关重要。这些参数虽然占比极小，但其影响却可能导致模型生成文本的能力大幅下降。因此，在进行模型优化时，必须谨慎对待这些超级权重，以避免不必要的性能损失。

修剪大型语言模型中的参数时，需特别注意超级权重的存在。即使是修剪一个参数，也可能导致模型的困惑度显著增加，甚至使模型的零-shot准确率降至随机猜测水平。这提醒研究者在优化模型时，需采用更为精细的策略，以确保模型性能不受影响。

通过保留超级权重并修剪其他异常权重，研究发现量化方法可以扩展到更大的块大小。这一发现为量化技术的应用提供了新的思路，可能在实际应用中提升模型的效率和性能，尤其是在资源受限的环境中。

❓

超级权重是大型语言模型中少量异常参数，这些参数对模型质量至关重要。

修剪超级权重可能会显著降低文本生成能力，增加困惑度。

可以通过一种无数据的方法，使用单次前向传播来识别超级权重。

超级激活是由超级权重引起的罕见且大的激活异常。

保留超级激活可以提升量化效果，使其与最先进的方法竞争。

提供超级权重坐标索引是为了促进对常见开放可用LLM的进一步研究。

🏷️