本文评估了大型语言模型(LLMs)在逻辑推理方面的能力,发现其在归纳推理上表现优异,但在演绎推理和复杂推理任务中存在不足。通过引入LogicAsker和SolverLearner,旨在提升LLMs的推理能力,为未来研究提供新方向。
本文探讨了大型语言模型(LLMs)在推理能力上的差异,特别是归纳推理与演绎推理的区别。研究提出了新框架SolverLearner,发现LLMs在归纳推理方面表现优异,但在演绎推理,尤其是“反事实”推理任务中相对不足。这为理解LLMs的推理能力提供了新视角。
该研究评估了大型语言模型(LLMs)在逻辑推理中的能力,发现它们在归纳推理方面表现良好,但在演绎推理,尤其是反事实推理中存在不足。提出的新框架SolverLearner有助于深入理解LLMs的推理能力。
本文介绍了合成问答数据集PrOntoQA,并分析了大型语言模型(LLMs)在逻辑推理能力上的表现。研究发现,LLMs在归纳推理方面表现优异,但在演绎推理和复杂推理任务中存在不足。提出的新框架SolverLearner有助于深入理解LLMs的推理能力。
大型语言模型(LLMs)的发展引起了人们对其推理和问题解决能力的兴趣。研究发现,LLMs在解决经典演绎推理问题上能力有限,改变展示格式和内容不能改善模型性能。LLMs具有独特的推理偏见,只能部分预测人类的推理表现。
研究人员成功将现代AI模型与几何形式系统整合,建立了一个完整且兼容的平面几何形式系统。他们提出了几何形式化理论(GFT),构建了包含88个几何谓词和196个定理的形式系统,并开发了形式几何问题解决器(FGPS)。实验证明GFT的正确性和实用性。
大型语言模型(LLMs)的发展引起了人们对其推理和问题解决能力的兴趣。研究发现,LLMs在解决演绎推理问题上能力有限,无论改变展示格式和内容,模型性能都未提高。总的来说,LLMs具有独特的推理偏见,只能部分预测人类的推理表现。
本文提出了一种创新的框架,将大型语言模型(LLMs)与外部思考器模块相结合,以增强基于 LLM 的代理机构的推理能力。该框架形成了一个推理层次结构,其中 LLMs 处理直觉性的 System-1 任务,而思考器专注于需要复杂逻辑分析和领域特定知识的认知 System-2 任务。实验证明了该框架在演绎推理、语音生成和在线游戏评估方面的有效性。此外,我们通过与思考器集成来调优 6B LLM,以超越 GPT4。本文还贡献了迄今为止最大的社交推理游戏数据集。
本论文研究了演绎推理中的胜于推理论据,利用GPT-3.5-turbo自动化分析这些论据,并生成清晰连贯的解释和新颖的论据。外部信息整合提高了解释质量,突出了人工智能在复杂推理任务中的潜力。
本研究测试了几种大型语言模型(LLMs)在解决认知科学文献中的演绎推理问题方面的能力。结果显示,这些模型的传统形式上的解决能力有限,且具有独特的推理偏见。更改展示格式和内容并不能改善模型性能。
本研究测试了几种大型语言模型(LLMs)在解决认知科学文献中的演绎推理问题方面的能力。结果表明,LLMs在传统形式上解决这些问题的能力有限,且具有推理偏见。后续实验未能提高总体性能。
研究探讨了LLMs解决认知科学文献中演绎推理问题的能力。研究发现LLMs在传统形式上解决这些问题的能力有限,且具有推理偏见。后续实验未能提高总体性能。
完成下面两步后,将自动完成登录并继续当前操作。