评估逐步推理与词汇否定:一个对三段论的案例研究
原文中文,约300字,阅读约需1分钟。发表于: 。大型语言模型在逐步推理指令(例如思维链提示)方面具有优势。在此基础上,它们在执行连贯思维推理方面的鲁棒性是一个值得探究的问题。本研究检验大型语言模型在逐步推理能力方面,重点关注难以处理的核心语言现象 —— 否定。通过引入几个受控设置(例如处理虚构实体时的推理)来评估模型的逻辑推理能力。我们观察到当进行逐步推理时,许多现代大型语言模型在处理否定词(例如 plausible ->...
本研究测试了几种大型语言模型(LLMs)在解决认知科学文献中的演绎推理问题方面的能力。结果显示,这些模型的传统形式上的解决能力有限,且具有独特的推理偏见。更改展示格式和内容并不能改善模型性能。