本研究评估了大型语言模型(LLMs)在组合数学问题解决中的表现,并提出了Combi-Puzzles数据集进行比较。结果显示,基于GPT-4的模型在解题正确率和变体表现上优于其他模型和人类,同时问题表述的修改对LLMs的影响显著。
完成下面两步后,将自动完成登录并继续当前操作。