UGMathBench: 一个多样且动态的本科数学推理基准测试

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出UGMathBench基准测试,旨在解决本科数学问题覆盖不足和测试集污染,包含5062个问题,评估大型语言模型的数学推理能力,最高有效准确率为56.3%。

🎯

关键要点

  • 本研究提出UGMathBench基准测试,旨在解决本科数学问题覆盖不足和测试集污染。
  • UGMathBench包含5062个问题,覆盖16个学科和111个主题。
  • UGMathBench专门用于评估大型语言模型的本科水平数学推理能力。
  • UGMathBench的关键发现是最高有效准确率为56.3%。
  • 研究表明未来需要开发具有高有效准确率和小推理差距的新型推理模型。
➡️

继续阅读