可解释的人工智能安全:探索图神经网络对对抗攻击的鲁棒性

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

图神经网络 (GNN) 的预测通常缺乏可解释性。本文提出了一种新的攻击方法,称为GXAttack,呼吁对未来的GNN解释器进行对抗性评估,以证明其鲁棒性。

🎯

关键要点

  • 图神经网络 (GNN) 的预测缺乏可解释性,主要由于其复杂的计算行为和图的抽象特性。
  • 许多 GNN 解释方法旨在解释模型的预测结果,以增强在关键应用中的信任。
  • 大多数 GNN 解释方法提供的解释是事后形式,通常依赖于少量重要的边缘和/或节点。
  • 这些解释的可信度受到质疑,因为常见的 GNN 解释方法对对抗扰动非常敏感。
  • 本文提出了一种新的攻击方法 GXAttack,针对事后 GNN 解释的基于优化的对抗攻击。
  • GXAttack 的有效性呼吁对未来的 GNN 解释器进行对抗性评估,以验证其鲁棒性。
➡️

继续阅读