本文测试了大型语言模型对文本场景进行的因果和道德判断是否与人类参与者的判断相符。结果显示,大型语言模型与人类的判断相符度有所提高,但对不同因素的重视程度存在明显差异。这些结果揭示了大型语言模型的隐含倾向,并展示了这些倾向在多大程度上与人类的直觉相一致。
完成下面两步后,将自动完成登录并继续当前操作。