CombiBench: A Benchmark for Evaluating the Capabilities of Large Language Models in Combinatorial Mathematics

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究推出CombiBench,包含100个组合问题,旨在解决组合数学缺乏基准的问题。结合Fine-Eval评估框架,结果显示现有大语言模型在该领域的能力有限。

🎯

关键要点

  • 本研究推出CombiBench,包含100个组合问题。
  • CombiBench旨在解决组合数学缺乏基准的问题。
  • 该基准覆盖多种难度级别。
  • 结合Fine-Eval评估框架,首次支持填空问题的评估。
  • 结果显示现有的大语言模型在解决组合问题方面的能力有限。
➡️

继续阅读