机器之心 ·

200多行代码，超低成本复现DeepSeek R1「Aha Moment」！复旦大学开源

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

复旦大学研究团队高效复现了R1-zero的自发反思能力，使用200多行简洁代码，降低资源消耗，支持低算力环境下训练。项目已开源，训练中出现“顿悟时刻”，计划进一步优化。

🎯

🔎

复旦大学的Simple-GRPO项目通过简化代码和降低资源消耗，使得在低算力环境下进行模型训练成为可能。训练成本低至奶茶价格区间，适合资源有限的研究团队和开发者，推动了AI技术的普及与应用。

模型在训练过程中出现的“顿悟时刻”表明其具备自我反思和策略调整的能力。这种能力不仅提升了模型的表现，也为未来的AI系统设计提供了新的思路，可能影响到更复杂任务的处理方式。

项目团队计划针对组内答案同质性和长思维链显存占用问题进行优化。这些问题的解决将进一步提升模型的训练效率和准确性，值得关注其后续进展，可能会对强化学习领域产生深远影响。

❓

复旦大学的研究团队复现了R1-zero的自发反思能力。

该项目的代码简洁，仅使用200多行代码。

训练成本低至奶茶价格区间，大约7.3元人民币。

训练过程中出现了“顿悟时刻”，表现为模型的自我反思和策略调整能力。

该项目支持在低算力环境下训练，使用A800和3090显卡。

未来将优化组内答案同质性问题和长思维链显存占用问题。

🏷️