受害者与受益者:利用被注入毒数据的模型训练干净数据的模型
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种新的双网络训练框架,通过预测熵区分污染样本和良性样本,有效防止后门注入和对抗各种攻击,同时保持良性样本性能。
🎯
关键要点
- 提出了一种新的双网络训练框架,称为受害者和受益者 (V&B)。
- 通过预测熵来区分污染样本和良性样本。
- 受害者网络用于检测有毒样本,受益者网络用于训练可信样本以抑制后门注入。
- 采用半监督抑制策略以消除潜在的后门。
- 提出了 AttentionMix 数据增强方法以更好地抑制被错过的有毒样本。
- 大量实验证明该框架在防止后门注入和对抗攻击方面的有效性,同时保持良性样本的性能。
➡️