BadFair: A Backdoor Fairness Attack with Group-Conditioned Triggers
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种新型后门公平攻击方法BadFair,能够在招聘、医疗和执法等敏感领域中隐蔽地对特定群体进行歧视,同时保持模型的准确性和公平性,使现有的公平性检测方法难以识别。
🎯
关键要点
-
本研究提出了一种新型后门公平攻击方法BadFair。
-
BadFair能够在招聘、医疗和执法等敏感领域中隐蔽地对特定群体进行歧视。
-
该方法在常规条件下保持模型的准确性和公平性。
-
特定触发器激活后,BadFair会导致对特定群体的歧视。
-
这种攻击方式隐蔽且危险,现有的公平性检测方法难以识别。
-
研究强调了受损模型可能导致的不平等结果,尤其是在敏感应用中。
🏷️