探索 Transformer 的残差流
原文中文,约400字,阅读约需1分钟。发表于: 。在本文中,我们通过研究 Transformer 模型的残差流来增强其可解释性。我们发现残差连接的机制是在 softmax 之前的值上进行直接相加,从而使得具有更大 softmax 之前值的标记的概率增加。此外,我们证明了使用对数概率增加作为贡献分数是合理的,并基于此定位重要参数。通过比较内积,我们还提出了一种分析前一层对上层影响的方法。实验结果和案例研究表明,我们的研究可以增强基于...
本研究通过研究Transformer模型的残差流,增强其可解释性。发现残差连接机制是在softmax之前的值上进行直接相加,使得具有更大softmax之前值的标记的概率增加。提出了一种分析前一层对上层影响的方法。实验结果和案例研究表明,该研究可以增强基于Transformer的模型的可解释性。