小红花·文摘 - 小红花技术领袖俱乐部

本研究提出了道德基础LLM数据集（MFD-LLM），旨在探讨大型语言模型的隐性偏见和道德倾向。评估结果显示，顶尖模型在价值偏好上存在显著同质性，但缺乏一致性，为未来的优化提供了启示。

From Stability to Inconsistency: A Study on the Moral Preferences of Large Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了文本到图像扩散模型中的隐性偏见问题，提出了隐性偏见注入攻击框架（IBI-Attacks），该框架能够在不明显改变图像的情况下引入偏见，从而影响公众信息的传递。

Implicit Bias Injection Attacks against Text-to-Image Diffusion Models

BriefGPT - AI 论文速递 ·

本研究分析了大型语言模型中的隐性偏见，分类了检测方法和评估指标，并总结了减缓措施及未来挑战，为研究者提供指导，激励创新探索。

Implicit Bias in Large Language Models: A Review

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型在模拟人类行为时的隐性偏见，并提出揭示社会人口类别决策差异的技术。尽管模型在减少显性偏见方面有所进展，但隐性偏见仍然显著，需要新的应对策略。

Actions Speak Louder Than Words: Revealing Implicit Bias in Language Models through Proxy Decision-Making

BriefGPT - AI 论文速递 ·

大型语言模型（LLMs）存在种族和性别等隐性偏见，影响用户体验和决策。研究提出了新的偏见测量方法，强调对AI系统中偏见的持续评估和缓解，以促进伦理AI的发展。

通过序数原型分析建模人类反应

BriefGPT - AI 论文速递 ·