TextFooler 黑盒对 01 损失符号激活神经网络集成攻击的准确性

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

研究发现文本分类器中的解释方法易受干扰,需要进行忠实和稳健的解释方法以防止解释被扰动改变。新的解释攻击算法TEF可以改变解释结果但保持分类器预测不变。评估发现所有模型和解释方法都容易受到TEF扰动的影响,表明文本分类器中的解释非常脆弱。

🎯

关键要点

  • 文本分类器中的解释方法易受干扰。
  • 需要忠实和稳健的解释方法以防止解释被扰动改变。
  • TEF是一种新颖的解释攻击算法,可以改变解释结果但保持分类器预测不变。
  • 评估显示所有模型和解释方法都容易受到TEF扰动的影响。
  • 文本分类器中的解释非常脆弱。
➡️

继续阅读