💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

复旦大学研究团队高效复现了R1-zero的自发反思能力,使用200多行简洁代码,降低资源消耗,支持低算力环境下训练。项目已开源,训练中出现“顿悟时刻”,计划进一步优化。

🎯

关键要点

  • 复旦大学研究团队高效复现了R1-zero的自发反思能力,使用200多行简洁代码。
  • 项目已开源,支持低算力环境下训练,资源消耗低。
  • 训练中出现“顿悟时刻”,表现为模型的自我反思和策略调整能力。
  • 现有复现项目依赖复杂代码框架,资源利用率不高,复现难度大。
  • Simple-GRPO项目代码简洁,依赖基础深度学习库,易于维护。
  • 项目在A800和3090显卡上训练7B模型,训练成本低至奶茶价格区间。
  • 训练过程中,Qwen2.5-3B和Qwen2.5-7B模型均出现了“顿悟时刻”。
  • Qwen2.5-3B和Qwen2.5-7B的准确率和格式遵循能力在训练中表现良好。
  • 未来将优化组内答案同质性问题和长思维链显存占用问题。
➡️

继续阅读