该文提出了一个基于概念的解释性方法的框架,并将其扩展到NLP领域。通过从预训练模型的隐藏层激活中提取具有预测高水平特征(概念),优化具有高影响力的特征的存在,并设立了多种评估指标。实验结果表明,该方法在预测影响、可用性和忠实度方面都取得了卓越的结果。
完成下面两步后,将自动完成登录并继续当前操作。