A & B == B & A:在大型语言模型中触发逻辑推理失败
原文中文,约500字,阅读约需2分钟。发表于: 。我们引入了 LogicAsker,它是一种自动方法,全面评估和改进基于命题和谓词逻辑的大型语言模型的逻辑推理能力,并揭示了 LLM 未能学好的逻辑规则。我们评估了 LogicAsker 在 GPT-3、ChatGPT、GPT-4、Bard、Vicuna 和 Guanaco 等主要的大型语言模型上,并展示了 LogicAsker 的测试用例在不同 LLM 中发现逻辑推理错误的比率从 25%...
LogicAsker是一种自动方法,用于评估和改进大型语言模型的逻辑推理能力。它在多个语言模型上进行了测试,并发现了逻辑推理错误。此外,LogicAsker的测试用例还可以用于提高语言模型的逻辑推理能力。该研究的代码、数据和结果将被公开。