这篇文章介绍了Arstar Math,展示了小型语言模型(参数不超过70亿)如何通过自我演化的深度思维掌握数学推理。该方法结合蒙特卡洛树搜索和过程奖励模型,解决了训练中的数据不足问题。通过生成高质量的数学问题和逐步验证推理轨迹,模型在数学基准测试中的表现显著提升,最终达到了与大型模型相媲美的效果。
完成下面两步后,将自动完成登录并继续当前操作。