本研究探讨大型语言模型(LLMs)对性别包容语言的处理,发现英语存在男性偏见,而德语中的偏见更为明显,强调了模型公正性的重要性。
本文介绍了一种名为反后门学习(ABL)的方法,旨在防御深度神经网络中的后门攻击。该方法通过两个阶段的梯度上升机制处理数据,使得训练出的模型与仅使用纯净数据训练的模型同样优秀。同时,研究揭示了后门攻击的多种形式及其对模型公正性和鲁棒性的威胁,强调了对错误标签的警惕和安全协议的重新评估。
本研究探讨了计算机视觉中的数据偏差问题,提出了使用归因地图、对抗性训练和前景引导分类器等方法来减轻模型偏见。研究表明,这些方法在不同数据集上有效提高了模型的公正性和准确性,尤其在性别偏见和主体目标识别方面表现突出。
完成下面两步后,将自动完成登录并继续当前操作。