本研究推出CombiBench,包含100个组合问题,旨在解决组合数学缺乏基准的问题。结合Fine-Eval评估框架,结果显示现有大语言模型在该领域的能力有限。
完成下面两步后,将自动完成登录并继续当前操作。