扩散去噪作为清洗标签中毒的认证防御
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
我们提出了一种经过认证的防御方法来对抗无标签污染攻击,通过使用扩散模型对受损的训练数据进行处理,我们在七种无标签污染攻击中将攻击成功率降低到0-16%,同时几乎不影响测试准确率。与现有的对抗无标签攻击的防御方法相比,我们的防御方法在降低攻击成功率和保持模型效用方面表现最好。我们的结果强调未来需要研究开发更强大的无标签攻击方法,并将我们的认证而实用的防御方法作为评估这些攻击方法的强有力的基准。
🎯
关键要点
- 提出了一种经过认证的防御方法来对抗无标签污染攻击。
- 使用扩散模型处理受损的训练数据。
- 在七种无标签污染攻击中,攻击成功率降低到0-16%。
- 几乎不影响测试准确率。
- 与现有防御方法相比,表现最好。
- 强调未来需要研究开发更强大的无标签攻击方法。
- 将该防御方法作为评估攻击方法的强有力基准。
➡️