200多行代码，超低成本复现DeepSeek R1「Aha Moment」！复旦大学开源

机器之心 ·

200多行代码，超低成本复现DeepSeek R1「Aha Moment」！复旦大学开源

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

复旦大学研究团队高效复现了R1-zero的自发反思能力，使用200多行简洁代码，降低资源消耗，支持低算力环境下训练。项目已开源，训练中出现“顿悟时刻”，计划进一步优化。

🎯

关键要点

复旦大学研究团队高效复现了R1-zero的自发反思能力，使用200多行简洁代码。
项目已开源，支持低算力环境下训练，资源消耗低。
训练中出现“顿悟时刻”，表现为模型的自我反思和策略调整能力。
现有复现项目依赖复杂代码框架，资源利用率不高，复现难度大。
Simple-GRPO项目代码简洁，依赖基础深度学习库，易于维护。
项目在A800和3090显卡上训练7B模型，训练成本低至奶茶价格区间。
训练过程中，Qwen2.5-3B和Qwen2.5-7B模型均出现了“顿悟时刻”。
Qwen2.5-3B和Qwen2.5-7B的准确率和格式遵循能力在训练中表现良好。
未来将优化组内答案同质性问题和长思维链显存占用问题。

🏷️

继续阅读

SGS与复旦大学将合作打造半导体微环境实验室
SGS与复旦大学于3月5日签署战略合作协议，聚焦半导体微环境实验室建设与技术攻关，整合优势，推动集成电路产业的前沿研究与标准创新。
像OpenCode、Cline和Aider这样的开源编码代理正在为开发者解决一个巨大的难题
越来越多的开放项目在探索开放代理架构，如OpenCode和Kilo Code等工具引入付费层以覆盖基础设施成本。Cline是一个来自2024年Anthro...
那个让马斯克点赞的男人，为什么还是离开了阿里？ - 蝈蝈俊
林俊旸于3月4日辞职，标志着中国AI界的重大变革。他的离开反映了开源与商业之间的矛盾，以及技术理想与管理体制的冲突。作为Qwen的核心人物，他推动了该模型...
一分钟读论文：《ICLR2026新CAGE技术破解跨文化AI安全测试难题》
CAGE技术由韩国SelectStar公司研发，旨在解决AI安全测试中的文化偏见问题。它通过“语义模具”方法自动生成适应不同文化的红队测试数据，显著提升小...
CNCF毕业Dragonfly，标志着云原生图像分发的重要里程碑
云原生计算基金会（CNCF）宣布开源图像和文件分发系统Dragonfly已达到毕业状态，标志着其生产就绪和行业广泛采用。Dragonfly利用P2P加速技...
开发者有两种，一种注定要失败。Justin Searls访谈 [播客 #210]
Quincy Larson采访了软件工程师Justin Searls，他15年前共同创办了一家软件公司。尽管38岁时已退休，Searls现在专注于开源软件...

200多行代码，超低成本复现DeepSeek R1「Aha Moment」！复旦大学开源

内容提要

关键要点

标签

继续阅读