本研究提出了AceMath数学模型套件,结合有效的奖励模型,通过监督微调显著提升数学问题解决能力,并建立了AceMath-RewardBench基准,最终在数学推理上取得最佳表现。
完成下面两步后,将自动完成登录并继续当前操作。