小红花·文摘

本文测试了大型语言模型对文本场景进行的因果和道德判断是否与人类参与者的判断相符。结果显示，大型语言模型与人类的判断相符度有所提高，但对不同因素的重视程度存在差异。这揭示了大型语言模型的隐含倾向，并展示了这些倾向与人类的直觉相一致程度。