研究发现,大规模预训练语言模型(LLM)在因果推理中表现有限。实验显示,人类在因果冲突时阅读时间更长,但在逻辑条件下相似。即使事件未明确提及,人类能通过脚本知识推断结果。最新的LLM如GPT-3与人类行为较一致,但仍难以整合脚本知识,无法准确预测某些因果关系。
完成下面两步后,将自动完成登录并继续当前操作。