小红花·文摘

本研究提出了AceMath数学模型套件，结合有效的奖励模型，通过监督微调显著提升数学问题解决能力，并建立了AceMath-RewardBench基准，最终在数学推理上取得最佳表现。