BadFair: A Backdoor Fairness Attack with Group-Conditioned Triggers
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新型后门公平攻击方法BadFair,能够在招聘、医疗和执法等敏感领域中隐蔽地对特定群体进行歧视,同时保持模型的准确性和公平性,使现有的公平性检测方法难以识别。
🎯
关键要点
- 本研究提出了一种新型后门公平攻击方法BadFair。
- BadFair能够在招聘、医疗和执法等敏感领域中隐蔽地对特定群体进行歧视。
- 该方法在常规条件下保持模型的准确性和公平性。
- 特定触发器激活后,BadFair会导致对特定群体的歧视。
- 这种攻击方式隐蔽且危险,现有的公平性检测方法难以识别。
- 研究强调了受损模型可能导致的不平等结果,尤其是在敏感应用中。
➡️