SATBench:通过从SAT公式自动生成难题来评估大型语言模型的逻辑推理能力
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了SATBench基准,以评估大型语言模型的逻辑推理能力,填补了推理规则研究的空白。通过自动生成难题,发现现有模型在复杂UNSAT问题上的最高准确率仅为65%。
🎯
关键要点
- 本研究提出SATBench基准,用于评估大型语言模型的逻辑推理能力。
- SATBench填补了先前研究在推理规则基础上的不足。
- 该方法利用SAT问题的搜索特性,自动生成难题并引入可调难度。
- 研究发现现有大型语言模型在解决复杂UNSAT问题时的最高准确率仅为65%。
➡️