BriefGPT - AI 论文速递 ·

使用输出洗牌攻击欺骗SHAP

💡 原文中文，约1500字，阅读约需4分钟。

📝

内容提要

本文探讨了黑盒图像分类中的对抗性样本问题，提出了一种基于偏差抽样的新方法，显著提高了攻击效率。同时，研究利用Shapley值检测正常与对抗输入，展示了高准确性和强泛化能力。此外，提出了新技术以隐藏分类器偏见，并讨论了可解释人工智能中的安全性问题，强调了持续评估的重要性。

🎯

❓

黑盒图像分类中的对抗性样本问题是指攻击者通过对模型输入进行微小扰动，导致模型产生错误分类的现象。

文章提出了一种基于偏差抽样的新方法，通过图像频率、区域掩码和代理梯度来提高黑盒攻击的效率。

Shapley值在检测正常与对抗输入方面展示了高准确性和强泛化能力。

文章提出的新技术可以欺骗常见的解释技术如LIME和SHAP，从而隐藏分类器的偏见。

持续评估在机器学习系统中重要，因为它可以识别和减轻潜在的安全风险。

文章提到了一种简单而有效的防御措施，可以轻松集成到模型中，且对模型性能影响小。

🏷️