本文通过收集故事并标注,测试大型语言模型对文本场景的因果和道德判断与人类参与者的相符度。结果显示,大型语言模型与人类判断相符度提高,但对不同因素的重视程度存在差异。通过策划和挑战性数据集结合认知科学,揭示大型语言模型的隐含倾向,并展示与人类直觉的一致程度。
本文测试了大型语言模型对文本场景进行的因果和道德判断是否与人类参与者的判断相符。结果显示,大型语言模型与人类的判断相符度有所提高,但对不同因素的重视程度存在差异。这揭示了大型语言模型的隐含倾向,并展示了这些倾向与人类的直觉相一致程度。
完成下面两步后,将自动完成登录并继续当前操作。