本研究探讨大型语言模型在模拟人类行为时的隐性偏见,并提出揭示社会人口类别决策差异的技术。尽管模型在减少显性偏见方面有所进展,但隐性偏见仍然显著,需要新的应对策略。
本文提出了一种新机制,通过三种策略评估大型语言模型中的显性和隐性性别偏见。研究表明,模型规模增大并不一定提高公平性,所有测试模型均存在性别偏见。
研究发现,通过使用社交媒体平台Kialo创建的数据集,ChatGPT的最新版本在争议性话题上不再表现出明显的显性偏见,特别是在经济方面进行了很好的调节。然而,它仍然存在对右倾意识形态的隐性倾向,需要增加更多的调节。在争议话题的领域知识方面,除了“哲学”类别外,ChatGPT在跟上人类集体知识水平方面表现良好。与人类答案相比,Bing AI的信息来源在倾向中立方面略有增加。
研究发现,通过使用社交媒体平台Kialo创建的数据集,ChatGPT的最新版本在争议性话题上不再表现出明显的显性偏见,特别是在经济方面。然而,它仍然存在对右倾意识形态的隐性倾向,需要增加更多的调节。在领域知识方面,除了哲学类别外,ChatGPT在跟上人类集体知识水平方面表现良好。与人类答案相比,Bing AI的信息来源在倾向中立方面略有增加。
完成下面两步后,将自动完成登录并继续当前操作。