小红花·文摘

本研究评估了大型语言模型（LLMs）在组合数学问题解决中的表现，并提出了Combi-Puzzles数据集进行比较。结果显示，基于GPT-4的模型在解题正确率和变体表现上优于其他模型和人类，同时问题表述的修改对LLMs的影响显著。