复旦大学研究团队高效复现了R1-zero的自发反思能力,使用200多行简洁代码,降低资源消耗,支持低算力环境下训练。项目已开源,训练中出现“顿悟时刻”,计划进一步优化。
完成下面两步后,将自动完成登录并继续当前操作。