💡
原文中文,约2700字,阅读约需7分钟。
📝
内容提要
复旦大学研究团队高效复现了R1-zero的自发反思能力,使用200多行简洁代码,降低资源消耗,支持低算力环境下训练。项目已开源,训练中出现“顿悟时刻”,计划进一步优化。
🎯
关键要点
- 复旦大学研究团队高效复现了R1-zero的自发反思能力,使用200多行简洁代码。
- 项目已开源,支持低算力环境下训练,资源消耗低。
- 训练中出现“顿悟时刻”,表现为模型的自我反思和策略调整能力。
- 现有复现项目依赖复杂代码框架,资源利用率不高,复现难度大。
- Simple-GRPO项目代码简洁,依赖基础深度学习库,易于维护。
- 项目在A800和3090显卡上训练7B模型,训练成本低至奶茶价格区间。
- 训练过程中,Qwen2.5-3B和Qwen2.5-7B模型均出现了“顿悟时刻”。
- Qwen2.5-3B和Qwen2.5-7B的准确率和格式遵循能力在训练中表现良好。
- 未来将优化组内答案同质性问题和长思维链显存占用问题。
➡️