CombiBench: A Benchmark for Evaluating the Capabilities of Large Language Models in Combinatorial Mathematics
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究推出CombiBench,包含100个组合问题,旨在解决组合数学缺乏基准的问题。结合Fine-Eval评估框架,结果显示现有大语言模型在该领域的能力有限。
🎯
关键要点
- 本研究推出CombiBench,包含100个组合问题。
- CombiBench旨在解决组合数学缺乏基准的问题。
- 该基准覆盖多种难度级别。
- 结合Fine-Eval评估框架,首次支持填空问题的评估。
- 结果显示现有的大语言模型在解决组合问题方面的能力有限。
➡️