本研究提出了道德基础LLM数据集(MFD-LLM),旨在探讨大型语言模型的隐性偏见和道德倾向。评估结果显示,顶尖模型在价值偏好上存在显著同质性,但缺乏一致性,为未来的优化提供了启示。
本研究探讨了文本到图像扩散模型中的隐性偏见问题,提出了隐性偏见注入攻击框架(IBI-Attacks),该框架能够在不明显改变图像的情况下引入偏见,从而影响公众信息的传递。
本研究分析了大型语言模型中的隐性偏见,分类了检测方法和评估指标,并总结了减缓措施及未来挑战,为研究者提供指导,激励创新探索。
本研究探讨大型语言模型在模拟人类行为时的隐性偏见,并提出揭示社会人口类别决策差异的技术。尽管模型在减少显性偏见方面有所进展,但隐性偏见仍然显著,需要新的应对策略。
本文提出了一种新机制,通过三种策略评估大型语言模型中的显性和隐性性别偏见。研究表明,模型规模增大并不一定提高公平性,所有测试模型均存在性别偏见。
完成下面两步后,将自动完成登录并继续当前操作。