傅里叶头:帮助大语言模型学习复杂概率分布
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
我们分析了OPT家族的大型语言模型,发现早期网络稀疏,许多神经元未激活,活跃神经元主要关注离散特征。随着模型规模增大,稀疏性和死神经元增多,部分神经元的激活与位置关系密切。
🎯
关键要点
- 分析了OPT家族的大型语言模型,参数范围从125m到66b。
- 早期网络部分稀疏,许多神经元未激活,活跃神经元主要关注离散特征。
- 许多神经元在大量多样的数据集上未被激活,活跃神经元用于标记和n-gram检测。
- FFN更新不仅促进下一个标记的候选项,还专注于删除触发标记的信息。
- 模型规模增大时,稀疏性和死神经元增多,部分神经元的激活与位置关系密切。
- 较小模型具有作为位置范围指示器的神经元集合,较大模型运作方式较不明确。
➡️