噪声的双刃剑：强化学习如何利用神经网络中的随机防御

本研究探讨了对抗性机器学习中的一个反直觉现象：噪声基础的防御在特定情况下可能意外地助长规避攻击。研究结果表明，尽管噪声通常被视为对抗性示例的防御策略，但在面对使用强化学习的自适应攻击者时，噪声有时可能会使攻击成功率显著提高，这表明需要对对抗性机器学习中的防御策略采取更细致的设计。

本文探讨了对抗性样本的防御方法，提出“对抗风险”作为模型鲁棒性的目标，并框架化常见攻击和评估指标。指出模型可能优化替代目标而非对抗风险，发展了识别混淆模型和设计透明模型的工具，强调梯度自由优化技术在实践中的重要性，以期帮助研究者开发更强的防御措施。

对抗性样本对抗风险强化学习梯度自由优化模型鲁棒性神经网络防御方法