大型语言模型的社会偏见评估需求提示变化

本研究探讨了大型语言模型（LLMs）在不同提示变化下对任务表现和社会偏见的敏感性，发现 LLMs 对提示的敏感程度很高，可能导致在任务表现和社会偏见方面的模型排名波动。此外，在优化社会偏见和任务表现之间存在权衡，而高级 LLMs 的示例模糊性是导致对提示敏感性的原因之一。因此，建议使用多样化的提示来比较提示对 LLMs 社会偏见的影响。

大型语言模型（LLMs）模拟回答主观问题的结果显示问题引导对偏见和变异有影响，突出了文化、年龄和性别偏见。测量LLMs与调查数据差异的方法包括计算加权平均值和基于Jaccard相似性的新提出的测量。需要分析问题引导的稳健性和变异性，才能在使用LLMs模拟个体决策或集体行为之前进行。

LLMs 偏见变异大型语言模型问题引导需求