双元子网络:在变换器语言模型中映射到下一个词元

📝

内容提要

本研究聚焦于变换器语言模型中当前词元嵌入到下一个词元预测的激活向量转变过程,识别出基于双元预测的子网络,这些子网络在模型性能中至关重要,尽管只占模型参数的0.2%以下。研究发现这些双元子网络主要集中在模型的首层,并与优化剪枝的子网络显著重叠,揭示了其在基本下一个词元预测中的必要性和充分性。

🏷️

标签

➡️

继续阅读