本研究提出了SATBench基准,以评估大型语言模型的逻辑推理能力,填补了推理规则研究的空白。通过自动生成难题,发现现有模型在复杂UNSAT问题上的最高准确率仅为65%。
完成下面两步后,将自动完成登录并继续当前操作。