本研究提出了过程奖励模型(PRM),解决了单元测试反馈强化学习在代码生成中的效率问题,通过逐行反馈模拟人类优化,显著提升了大型语言模型在长时序任务中的表现。
完成下面两步后,将自动完成登录并继续当前操作。