研究发现文本分类器中的解释方法易受干扰,需要进行忠实和稳健的解释方法以防止解释被扰动改变。新的解释攻击算法TEF可以改变解释结果但保持分类器预测不变。评估发现所有模型和解释方法都容易受到TEF扰动的影响,表明文本分类器中的解释非常脆弱。
完成下面两步后,将自动完成登录并继续当前操作。