数据归因的对抗攻击

本研究关注数据归因方法在对抗攻击下的稳健性问题，这一问题在现有文献中研究不足。研究者提出了一种明确的威胁模型，并提出了两种对抗攻击方法：影子攻击和离群点攻击，前者通过“影子训练”来利用数据分布知识生成对抗扰动，后者则通过黑盒查询生成操控数据集。实验结果显示，影子攻击能使基于数据归因的补偿增加至少200%，而离群点攻击的补偿增幅则在185%至643%之间。

机器学习模型的可解释性对于安全关键应用很重要。最近的研究发现归因方法存在脆弱性，提出了改进方法。研究发现现有的鲁棒性度量指标过度惩罚本地归因偏移，归因也可能集中在一个小区域。为了解决这些问题，提出了一些简单的方法来加强度量指标和归因方法。对模型训练的研究发现，对抗性训练的模型在较小的数据集上具有更鲁棒的归因，但在较大的数据集中，这种优势消失了。