基于上下文分解的 Transformer 中的机制解释

本文介绍了一种用于 transformers 的上下文分解的解释方法，可以捕捉不同输入特征或源内部组件对最终预测或目标内部组件输出的贡献，用于电路发现等任务，并通过实验验证了其在局部解释方面的出色能力。

本文介绍了一种普适的校准方法，用于调整Transformer模型中的上下文驱动分布变化。通过评估预测残差与上下文之间的互信息，量化模型对CDS的脆弱性。提出了一个简单但有效的模型校准框架，实现偏差和方差的最佳平衡。实验证明该方法增强了Transformers在真实世界数据集上的性能。