UFO是否推动了创新?大型语言模型中的因果幻觉
原文中文,约500字,阅读约需2分钟。发表于: 。本研究探讨大型语言模型在实际应用中是否会产生因果幻觉,即错误地将相关性解读为因果关系。通过比较不同模型生成的新闻标题,发现Claude-3.5-Sonnet在因果幻觉方面表现最优,而模仿性拍马行为会增加模型产生因果幻觉的可能性。这一发现有助于理解语言模型在信息生成中的潜在偏见与影响。
研究发现,大规模预训练语言模型(LLM)在因果推理中表现有限。实验显示,人类在因果冲突时阅读时间更长,但在逻辑条件下相似。即使事件未明确提及,人类能通过脚本知识推断结果。最新的LLM如GPT-3与人类行为较一致,但仍难以整合脚本知识,无法准确预测某些因果关系。