小红花·文摘

本研究探讨大型语言模型（LLMs）对性别包容语言的处理，发现英语存在男性偏见，而德语中的偏见更为明显，强调了模型公正性的重要性。

BriefGPT - AI 论文速递 ·

本文介绍了一种名为反后门学习（ABL）的方法，旨在防御深度神经网络中的后门攻击。该方法通过两个阶段的梯度上升机制处理数据，使得训练出的模型与仅使用纯净数据训练的模型同样优秀。同时，研究揭示了后门攻击的多种形式及其对模型公正性和鲁棒性的威胁，强调了对错误标签的警惕和安全协议的重新评估。

BriefGPT - AI 论文速递 ·

本研究探讨了计算机视觉中的数据偏差问题，提出了使用归因地图、对抗性训练和前景引导分类器等方法来减轻模型偏见。研究表明，这些方法在不同数据集上有效提高了模型的公正性和准确性，尤其在性别偏见和主体目标识别方面表现突出。

BriefGPT - AI 论文速递 ·