对 Makelov 等人(2023 年)的 “可解释性幻觉” 论点的回应

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

最近的研究发现亚空间干预可以同时操纵模型行为和将特征归因于给定亚空间,但这两个目标是不同的,可能会导致虚假的解释感觉。研究还展示了实践中支持该现象普遍存在的证据。然而,亚空间激活干预在可解释性方面仍然适用。

🎯

关键要点

  • 亚空间干预可以同时操纵模型行为和将特征归因于给定亚空间。
  • 这两个目标是不同的,可能导致虚假的解释感觉。
  • 亚空间干预可能通过激活与模型输出因果断开的并行路径来实现效果。
  • 研究展示了数学示例和两个真实领域的证据,支持这一现象的普遍存在。
  • 亚空间激活干预在可解释性方面仍然适用。
  • 在间接对象识别任务中,手动电路分析成功提供了特征位置的信息。
  • 需要额外证据来论证修补的亚空间是否忠实。
➡️

继续阅读