本文探讨了ReLU变换器中多层感知机(MLPs)的稀疏性,分析了训练过程中令牌级稀疏性的演变及其与序列或批次稀疏模式的关系,发现不同层具有特定的稀疏模式,尤其是第一层和最后一层的稀疏性呈现相反关系,并讨论了“神经元死亡”现象的成因。
完成下面两步后,将自动完成登录并继续当前操作。