本研究评估了大型语言模型在组合数学问题解决中的不足,并提出了Combi-Puzzles数据集进行比较。结果表明,基于GPT-4的模型在解题正确率上显著优于其他模型和人类,且问题表述的修改对大型语言模型的影响显著。
完成下面两步后,将自动完成登录并继续当前操作。