机器之心 ·

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

💡 原文中文，约5100字，阅读约需13分钟。

📝

内容提要

研究表明，大模型中的「超权重」对性能至关重要，去掉一个「超权重」的影响比去掉7000个离群值更大。研究团队提出了一种新方法，通过检测层间降维投影中的峰值来识别「超权重」，并改进量化技术以保持模型性能。实验结果显示，「超权重」显著影响输出token的生成概率，尤其是语义词汇的预测。

🎯

🔎

研究表明，超权重在大模型中扮演着至关重要的角色。去掉一个超权重的影响，远超去掉7000个离群值。这意味着在模型优化时，关注这些少量的超权重特征，可以显著提升模型的整体性能。

超权重不仅引发超激活现象，还抑制了停用词的生成概率。这表明，超权重对模型生成语义丰富的词汇至关重要，去掉超权重后，模型的预测能力显著下降，尤其是在生成具有强语义的词汇时。

研究团队提出的超权重感知量化方法在处理大数据块时表现优于传统方法。这一进步不仅提高了模型的性能，还降低了计算资源的需求，适合在资源有限的环境中部署，具有广泛的应用前景。

❓

「超权重」是指在大模型中少量特别重要的特征，它们对模型的表现至关重要。

去掉一个「超权重」的影响比去掉7000个离群值更大，可能导致模型性能严重下降。

可以通过检测层间降维投影中的峰值来识别「超权重」。

「超权重」显著影响输出token的生成概率，尤其是语义词汇的预测。

研究团队提出了一种改进的量化技术，能够在保持模型性能的同时处理更大的数据块。

「超激活」是指输入token激活的异常放大现象，与「超权重」密切相关，后者会进一步放大这种激活。

🏷️