CHECKWHY：通过论证结构进行因果事实验证

本研究针对现有事实验证任务中的推理能力不足问题，提出了CheckWhy数据集，旨在通过严格的推理步骤验证声明中的因果关系。研究结果表明，纳入论证结构对于因果事实验证至关重要，且当前模型在生成有效论证结构方面仍存在较大改进空间。

本文提出了一个基于逻辑推理的框架，用于将宣称或传言与证据分解为验证所需的原子推理步骤，并通过对GPT-3.5-Turbo和GPT-4的推理能力进行评估。结果显示ChatGPT在因果推理方面存在困难，但通过使用手动Chain of Thought（CoT）方法可以在一定程度上缓解这一问题。研究指出ChatGPT的推理过程与人类类似的推理过程不太一致，同时强调LLMs需要在实际任务中进行更严格的评估。

Chain of Thought GPT-3.5-Turbo GPT-4 因果推理逻辑推理