小红花·文摘

北大千问团队推出了数学专用版CriticGPT，名为Math-Minos。该模型通过引入逐步的自然语言反馈作为理由标签，提供更深入的解释，丰富了验证器的训练信息。Math-Minos在ORM和PRM任务设置中展现出了优越的性能，特别是在ORM设置中。研究团队希望这项工作能够推动大型语言模型在复杂推理任务上的能力。