小红花·文摘

本研究推出CombiBench，包含100个组合问题，旨在解决组合数学缺乏基准的问题。结合Fine-Eval评估框架，结果显示现有大语言模型在该领域的能力有限。