小红花·文摘

该文提出了一个基于概念的解释性方法的框架，并将其扩展到NLP领域。通过从预训练模型的隐藏层激活中提取具有预测高水平特征（概念），优化具有高影响力的特征的存在，并设立了多种评估指标。实验结果表明，该方法在预测影响、可用性和忠实度方面都取得了卓越的结果。