小红花·文摘

本研究提出UGMathBench基准测试，旨在解决本科数学问题覆盖不足和测试集污染，包含5062个问题，评估大型语言模型的数学推理能力，最高有效准确率为56.3%。