本文探讨大型语言模型(LLMs)在因果和道德判断方面与人类的相符度。研究发现,尽管模型的判断能力有所提高,但在不同因素的重视程度上仍存在差异。此外,预训练的多语言模型可能编码道德偏见,这些偏见不一定反映人类文化的差异。研究强调了多语言预训练数据集的重要性,以更好地代表人类经验的多样性。
本文测试了大型语言模型对文本场景进行的因果和道德判断是否与人类参与者的判断相符。结果显示,大型语言模型与人类的判断相符度有所提高,但对不同因素的重视程度存在明显差异。这些结果揭示了大型语言模型的隐含倾向,并展示了这些倾向在多大程度上与人类的直觉相一致。
完成下面两步后,将自动完成登录并继续当前操作。