通过迭代过滤检测不可学习示例
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了深度神经网络在数据污染攻击,特别是可用性攻击中存在的脆弱性,提出了一种迭代过滤的方法来识别混合数据集中的不可学习示例。研究表明,该方法通过利用模型对清洁数据和污染数据的适应性差异,实现了高效识别污染样本,实验结果显示其在各类攻击下显著优于现有检测方法。
随着社交媒体的出现,隐私保护变得越来越关键。研究发现,使用深度学习模型的不可学习示例很容易被检测出来。提出了一种新型的防御方法,使用更强的数据增强和简单网络生成的对抗噪声来降低检测性,并以更低的代价提供有效的防御措施。建立了中毒和对抗预算之间的定量标准,用来确定稳健的不可学习示例的存在或对抗性防御的失败。