WILT：一个多轮、记忆鲁棒的归纳逻辑基准测试

本研究针对大型语言模型在多轮推理任务中存在的显著挑战展开，该任务要求模型在多个回合中收集证据并做出逻辑推断。我们提出的WILT基准通过避免模型依赖预先学习的反应，考察其在命名假设测试中的能力，发现现有模型在复杂的多轮推理任务上表现不佳，最高准确率仅为28%。

我们推出了LogicAsker，一种自动化方法，用于评估和提升大型语言模型的逻辑推理能力。在GPT-3、ChatGPT、GPT-4等模型上测试发现，逻辑推理错误率在25%到94%之间。LogicAsker的测试用例还能用于设计上下文学习示例，提高逻辑推理能力，例如GPT-4提升了10%。所有代码和数据将公开以支持未来研究。

GPT-4 LogicAsker 基准测试大型语言模型逻辑推理错误率