本研究提出UGMathBench基准测试,旨在解决本科数学问题覆盖不足和测试集污染,包含5062个问题,评估大型语言模型的数学推理能力,最高有效准确率为56.3%。
完成下面两步后,将自动完成登录并继续当前操作。