哪个人在数学上更优秀,Jenny 还是 Jingzhen?揭示大型语言模型中的刻板印象
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
大型语言模型(LLMs)会传播和放大有害的刻板印象,特别是对边缘化社群。研究者使用GlobalBias数据集测试了一套语言模型,并发现模型输出中存在刻板印象。即使禁止,更大的模型仍然显示出更高水平的刻板印象输出。
🎯
关键要点
- 大型语言模型(LLMs)传播和放大有害的刻板印象,尤其影响边缘化社群。
- 研究者介绍了GlobalBias数据集,包含40个性别-种族群体及相关刻板印象描述词。
- 通过困惑度测试语言模型,研究刻板印象在模型内部表示中的呈现。
- 根据姓名生成角色配置文件,评估模型输出中刻板印象的普遍性。
- 发现与刻板印象相关的人口群体在模型输出中保持一致。
- 即使禁止,较大的模型仍显示出更高水平的刻板印象输出。
🏷️
标签
➡️