欺骗的艺术:使用动态叠加触发器的强健后门攻击

💡 原文中文,约600字,阅读约需2分钟。
📝

内容提要

深度神经网络在面部伪造检测中性能提高,但受到后门攻击威胁。研究自然触发器,提出基于合成分析的后门攻击方法。实验证明方法在攻击成功率、后门防御和人工检查方面具有优势。

🎯

关键要点

  • 深度神经网络在面部伪造检测中性能显著提高,但面临后门攻击威胁。
  • 提出基于合成分析的后门攻击方法,研究自然触发器的嵌入潜在空间。
  • 从模型区分和数据分布两个角度深入研究后门漏洞。
  • 使用优化的触发器最小化交叉熵损失找到触发器。
  • 通过操纵长尾分布生成没有检测模型监督的污染样本。
  • 采用领先的StyleGAN和Stable Diffusion进行触发器生成。
  • 后门触发器引入特定语义特征,使生成样本更自然、更健壮。
  • 实验证明方法在攻击成功率、后门防御和人工检查方面具有优越性。
  • 攻击成功率超过99%,低污染率下模型准确性下降小于0.2%。
  • 方法在面对现有后门防御时显示出更好的鲁棒性。
  • 综合用户研究表明方法对人视觉更不敏感。
➡️

继续阅读