小红花·文摘

这篇文章介绍了Arstar Math，展示了小型语言模型（参数不超过70亿）如何通过自我演化的深度思维掌握数学推理。该方法结合蒙特卡洛树搜索和过程奖励模型，解决了训练中的数据不足问题。通过生成高质量的数学问题和逐步验证推理轨迹，模型在数学基准测试中的表现显著提升，最终达到了与大型模型相媲美的效果。