小红花·文摘

研究发现文本分类器中的解释方法易受干扰，需要进行忠实和稳健的解释方法以防止解释被扰动改变。新的解释攻击算法TEF可以改变解释结果但保持分类器预测不变。评估发现所有模型和解释方法都容易受到TEF扰动的影响，表明文本分类器中的解释非常脆弱。