本研究提出了一种新颖的编码器-解码器方法,针对人工智能系统中的性别偏见问题。该方法通过模型梯度学习单一性别信息特征神经元,有效去除变换器模型的性别偏见,展现出广泛的应用潜力。
本研究探讨了定向清洁标签中毒攻击的泛化问题,提出了一种新攻击方法,利用模型梯度的方向和幅度,成功率提高了20.95%,优于传统方法。
完成下面两步后,将自动完成登录并继续当前操作。