通过点亮重要信息更好地解释 Transformers
原文中文,约200字,阅读约需1分钟。发表于: 。提出了一种在层间相关传播 (LRP) 方法的基础上通过细化信息流来突出重要信息并消除无关信息,实验结果表明,与八个基准方法相比,在分类和问答数据集上我们的方法始终表现出超过 3% 到 33% 的解释指标的提升,提供了更好的解释性能。
研究发现,大型语言模型(LLMs)在表示上下文之外的单词时,依赖所给上下文来捕捉其语义。意外的令牌会导致模型不太关注自身信息,特别是在较高的层次上。这些发现对于评估LLMs在真实世界场景中的鲁棒性具有重要影响。