本文探讨了大型语言模型(LLMs)中的社会偏见及其评估方法,提出了大型语言模型偏差指数(LLMBI)以量化多维度偏见,并强调监测和校准模型以提高公平性。实证分析显示,LLMs在文本生成中存在显著偏见,影响其作为评估器的有效性。研究还提出了新的测试和度量方式,以减少性别、种族等刻板印象的负面影响。
完成下面两步后,将自动完成登录并继续当前操作。