北交开源o1代码版!强化学习+蒙特卡洛树搜索,源代码、精选数据集以及衍生模型通通开源

💡 原文中文,约2500字,阅读约需6分钟。
📝

内容提要

北京交通大学研究团队推出O1-CODER模型,结合强化学习与蒙特卡洛树搜索,专注于编码任务。该模型通过伪代码推理提升代码生成质量,测试用例生成通过率从80.8%提升至89.2%。研究表明,伪代码引导的深度推理显著改善推理过程,形成自我对弈闭环,持续提升系统推理能力。

🎯

关键要点

  • 北京交通大学推出O1-CODER模型,结合强化学习与蒙特卡洛树搜索,专注于编码任务。

  • 模型通过伪代码推理提升代码生成质量,测试用例生成通过率从80.8%提升至89.2%。

  • 伪代码引导的深度推理显著改善推理过程,形成自我对弈闭环,持续提升系统推理能力。

  • 模型面临结果评估和定义思考行为的挑战,提出训练测试用例生成器(TCG)作为解决方案。

  • 采用“先思考后行动”的方式,通过伪代码生成可执行代码,提升适应性和可控粒度。

  • 研究团队提出六个步骤的框架来优化模型,包括训练TCG和利用MCTS生成代码数据。

  • 测试用例生成器的训练分为监督微调(SFT)和直接偏好优化(DPO)两个阶段,DPO阶段显著提升生成器性能。

  • 伪代码作为认知工具,引导模型进行深度推理,改善推理过程质量。

  • 使用MCTS构建步骤级别的过程奖励数据,评估生成代码的质量和正确性。

  • 通过强化学习和MCTS更新策略模型,形成自我对弈的闭环,确保系统推理能力持续提升。

➡️

继续阅读