大型语言模型的社会偏见评估需求提示变化
原文中文,约300字,阅读约需1分钟。发表于: 。本研究探讨了大型语言模型(LLMs)在不同提示变化下对任务表现和社会偏见的敏感性,发现 LLMs 对提示的敏感程度很高,可能导致在任务表现和社会偏见方面的模型排名波动。此外,在优化社会偏见和任务表现之间存在权衡,而高级 LLMs 的示例模糊性是导致对提示敏感性的原因之一。因此,建议使用多样化的提示来比较提示对 LLMs 社会偏见的影响。
大型语言模型(LLMs)模拟回答主观问题的结果显示问题引导对偏见和变异有影响,突出了文化、年龄和性别偏见。测量LLMs与调查数据差异的方法包括计算加权平均值和基于Jaccard相似性的新提出的测量。需要分析问题引导的稳健性和变异性,才能在使用LLMs模拟个体决策或集体行为之前进行。