小红花·文摘

因果推理如何解决大型语言模型在可观察性中的局限性

InfoQ ·

本文提出因果制图师框架，旨在克服因果世界模型的局限性，通过提取和建模因果关系，构建现实世界因果网络，从而显著提升大型语言模型的因果推理能力。

Causal Cartographer: From Mapping to Inferring Counterfactual Worlds

BriefGPT - AI 论文速递 ·

本研究提出了ProgGen模型，利用大型语言模型的归纳偏见，解决视频预测中动态描述模型的不足。该方法通过神经-符号的可解释状态集生成视频帧预测，尤其在复杂环境中表现优于现有技术，支持因果推理和可解释性。

Programmatic Video Prediction Using Large Language Models

BriefGPT - AI 论文速递 ·

本研究探讨了语言模型代理在因果推理中的能力与偏见，发现它们在离散因果关系推理上表现良好，但在复杂的联合因果关系中存在困难。研究提出了一种新方法，减少了代理的偏见，使其推理更接近科学标准。

Language Agents Mirror Human Causal Reasoning Biases. How Can We Help Them Think Like Scientists?

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过追溯反事实来提高模型的可解释性，解决了传统方法忽视因果关系的问题。该方法结合因果推理，生成可操作的解释，并在实验中显示出比现有技术更深刻的模型洞察。

A New Approach to Backtracking Counterfactual Explanations: A Causal Framework for Efficient Model Interpretability

BriefGPT - AI 论文速递 ·

本研究探讨了概率和因果推理中的可满足性问题的复杂性，填补了理论空白。通过固定结构因果模型和小模型的研究，揭示了不同设置下的复杂性特征，尤其在紧凑边际化条件下，结果对理解可满足性复杂性及其应用具有重要意义。

Probabilistic and Causal Satisfiability: Constrained Models

BriefGPT - AI 论文速递 ·

本研究探讨了大语言模型（LLMs）的因果推理能力，分析其表现机制及因果与反因果学习对自然语言处理任务的影响。通过创新的数据集和基准任务，识别改善LLMs因果能力的挑战与机遇，为未来研究奠定基础。

Causality in Natural Language Processing

BriefGPT - AI 论文速递 ·

本研究探讨了人工智能在推理和环境理解方面的不足，提出了基于皮亚杰理论的动态可解释框架，强调物理信息学习和因果推理等六个关键领域，以促进AI从模式识别向真正理解和适应能力的转变。

World Models in Artificial Intelligence: Perceiving, Learning, and Reasoning Like a Child

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，解决自主车辆与人类互动中的透明性和可解释性问题。通过加权学习奖励指标，提升了代理的因果推理能力，实验结果在真实驾驶数据集上表现优异。

Causal Explanations and Reward Feature Learning for Generating Vehicle Agent Behavior Interactions

BriefGPT - AI 论文速递 ·

本研究提出了一种统一的组合因果推理框架，以解决生成性AI中因果推理评估不足的问题。实验揭示了语言模型的错误模式，尤其在复杂因果路径下错误率显著增加，展示了该框架的应用价值。

Evaluation of Combinatorial Causal Reasoning in Language Models

BriefGPT - AI 论文速递 ·

本研究提出了一种因果可靠的概念瓶颈模型（C$^2$BMs），旨在解决传统模型未能反映真实因果机制的问题。该模型通过结构化瓶颈促进推理，提升因果推理任务的表现，增强可解释性和因果可靠性，实验结果表明其优于现有模型。

Causally Reliable Concept Bottleneck Models

BriefGPT - AI 论文速递 ·

本研究提出了一种名为PC-SubQ的提示策略，旨在提升大型语言模型（LLMs）在因果推理中的表现。通过将任务拆分为子问题，LLMs能够更有效地应用因果发现算法，从而增强其鲁棒性。

Prompting Strategy for Large Language Models to Infer Causal Relationships

BriefGPT - AI 论文速递 ·

该研究探讨了大型语言模型在因果推理中的解释性和可靠性，提出通过“do-operators”构建反事实场景。实验结果表明，模型的推理能力依赖于上下文和领域知识，缺乏知识时仍能通过数值数据推理，但存在一定限制。

提升大型语言模型的因果推理能力：一项调查

BriefGPT - AI 论文速递 ·

本研究提出CausalGraph2LLM基准，用于评估大型语言模型在因果推理中的能力。结果显示，尽管这些模型有潜力，但对编码的敏感性很高，像GPT-4和Gemini-1.5的表现差异可达60%。

因果图到大型语言模型：评估大型语言模型对因果查询的能力

BriefGPT - AI 论文速递 ·

研究发现，大规模预训练语言模型（LLM）在因果推理中表现有限。实验显示，人类在因果冲突时阅读时间更长，但在逻辑条件下相似。即使事件未明确提及，人类能通过脚本知识推断结果。最新的LLM如GPT-3与人类行为较一致，但仍难以整合脚本知识，无法准确预测某些因果关系。

UFO是否推动了创新？大型语言模型中的因果幻觉

BriefGPT - AI 论文速递 ·

研究探讨大型语言模型在因果推理和信息检索中的影响，提出基于知识图谱的随机游走推理方法。通过增强因果关系，实验显示该方法显著提升模型性能，证明因果结构融入提示可改善语言模型表现。

大型语言模型中的因果推理：一种知识图谱方法

BriefGPT - AI 论文速递 ·

研究评估了视觉语言模型在物理、因果推理和心理领域的表现。结果显示，这些模型在处理视觉数据时表现不足，尤其在直觉心理任务中失败。研究建议增强模型对因果关系、物理动力学和社会认知的理解，并强调认知启发式评估的重要性。

本文提出了一个基于逻辑推理的框架，用于将宣称或传言与证据分解为验证所需的原子推理步骤，并通过对GPT-3.5-Turbo和GPT-4的推理能力进行评估。结果显示ChatGPT在因果推理方面存在困难，但通过使用手动Chain of Thought（CoT）方法可以在一定程度上缓解这一问题。研究指出ChatGPT的推理过程与人类类似的推理过程不太一致，同时强调LLMs需要在实际任务中进行更严格的评估。