本文提出了一种新的生成偏见基准(BBG),用于评估十种大型语言模型在故事提示生成中的中立性与偏见生成概率,指出现有评估方法的局限性。
本文提出了一种新的生成偏见基准(BBG),用于评估大型语言模型的中立性与偏见生成概率。
现有评估方法在长篇生成中评估社会偏见存在困难。
通过评估十种大型语言模型在故事提示生成中的表现,发现评估结果与多项选择的QA评估结果不一致。
该研究突显了现有评估方法在评估上的局限性。
完成下面两步后,将自动完成登录并继续当前操作。