小红花·文摘

本研究评估了自然语言生成模型（LM）在社会决策场景中的潜在歧视影响，并展示了降低歧视的技术。结果显示Claude 2.0模型存在积极和消极歧视的模式。研究成果使开发人员和决策者能够预见、衡量和解决歧视问题。