小红花·文摘

本研究提出了SATBench基准，以评估大型语言模型的逻辑推理能力，填补了推理规则研究的空白。通过自动生成难题，发现现有模型在复杂UNSAT问题上的最高准确率仅为65%。