对抗性涂鸦:可解释和可人工绘制的攻击提供可描述的洞察

原文约200字,阅读约需1分钟。发表于:

利用黑色贝塞尔曲线,通过将其覆盖在输入图像上来欺骗目标分类器的 Adversarial Doodles 提供了对攻击和分类器输出之间关系的可描述和引人入胜的见解。

通过研究多种神经网络,发现随着图片识别准确度提高,对抗性攻击虽然容易改变模型分类决策,但攻击特征与人类视觉识别相关特征越来越远。通过神经协调器网络训练,可以提高对抗性攻击下的鲁棒性。

相关推荐 去reddit讨论