大型语言模型与人类在带有脚本知识的因果推理中有相似的行为吗?
最近,大规模预训练语言模型(LLM)展示了卓越的语言理解能力,包括零示例因果推理。然而,目前尚不清楚它们的能力在多大程度上与人类相似。本文研究了一个基于脚本故事中事件 $B$ 的处理,该事件的因果关系依赖于前一个事件 $A$。通过自行阅读实验,发现在因果冲突存在($ eg A ightarrow B$)的情况下,人类的阅读时间明显较长,而在逻辑条件($A ightarrow...
本文研究了人类与大规模预训练语言模型(LLM)在因果推理能力上的相似度。实验发现人类在处理因果冲突时阅读时间增加,而LLM如GPT-3在某些条件下能模仿人类行为,但在整合脚本知识方面仍有困难。相关代码和数据集已公开。