小红花·文摘

北京交通大学研究团队推出O1-CODER模型，结合强化学习与蒙特卡洛树搜索，专注于编码任务。该模型通过伪代码推理提升代码生成质量，测试用例生成通过率从80.8%提升至89.2%。研究表明，伪代码引导的深度推理显著改善推理过程，形成自我对弈闭环，持续提升系统推理能力。