本研究针对统一多模态大型语言模型在图像生成中的性别和种族偏见,提出了“定位-修复”策略来审计偏见,发现偏见主要源于语言模型,并引入平衡偏好模型以减少偏见。强调了对U-MLLMs的全面解读和去偏见策略的重要性。
本文探讨了大型语言模型中的性别偏见问题,提出了多种去偏见策略,包括使用少量训练样例和新型评估框架。研究发现模型在性别、种族和年龄等方面存在显著偏见,影响其公平性,旨在通过不同方法减少偏见,提高模型的公正性。
本文介绍了BiasBuster框架,旨在识别和减轻大型语言模型中的认知偏见。通过开发包含16800个提示的数据集,研究了多种去偏见策略,验证了自助去偏置方法的有效性。同时,探讨了大型语言模型在道德判断和金融决策等领域的表现,强调了其在模拟人类行为时的局限性和潜在风险。
完成下面两步后,将自动完成登录并继续当前操作。