小红花·文摘

最近的研究发现亚空间干预可以同时操纵模型行为和将特征归因于给定亚空间，但这两个目标是不同的，可能导致虚假解释感觉。研究还发现亚空间干预可能是通过激活与模型输出因果断开的并行路径来实现的。然而，这并不意味着亚空间激活干预在可解释性方面本质上不适用。研究还探讨了需要的额外证据来论证修补的亚空间是否忠实。