本研究将可解释性方法应用于Transformer-based语言模型的后向通道和梯度,发现梯度矩阵可以被看作是前向和后向通道输入的低秩线性组合,并开发了投影梯度到词汇项的方法。研究还探索了在语言模型的神经元中存储新信息的机制。
完成下面两步后,将自动完成登录并继续当前操作。