小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文介绍了Open R1项目的开源内容,包括GRPO算法实现、数据生成器和训练代码。Open R1复现了R1的训练流程,并提供了OpenR1-Math-220k数据集,以提升数学推理能力。通过详细的数据生成、过滤和评估过程,Open R1团队确保了数据的高质量和准确性。

R1-Zero与R1的复现之路——从Open-Reasoner-Zero到Open R1:先后涉及规则奖励下的PPO迭代,及SFT+GRPO的复现

结构之法 算法之道
结构之法 算法之道 · 2025-02-17T09:29:26Z

本文介绍了Open R1的开源内容及其复现R1训练流程的过程,包括GRPO实现、数据生成和评估。OpenR1-Math-220k数据集生成了22万条高质量数学推理数据,提升了模型性能。通过改进验证工具和使用奖励模型,确保了数据质量和推理能力。

MTP——我对DeepSeek V3中多token预测MTP的代码实现(含对V3官方MoE、MLA推理代码的解读)

结构之法 算法之道
结构之法 算法之道 · 2025-02-13T07:45:02Z
开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了

Open R1项目旨在完全复现DeepSeek-R1,已发布OpenR1-Math-220k数据集,生成22万条高质量推理数据,支持小模型达到与DeepSeek相当的性能,推动开源社区发展。

开源22万条DeepSeek R1的高质量数据!你也能复现DeepSeek了

机器之心
机器之心 · 2025-02-11T06:38:31Z

DeepSeek-R1项目引发关注,HuggingFace推出Open R1,旨在开源复制DeepSeek-R1。项目上线一天即获1.9k星,计划通过蒸馏和强化学习等方法提升AI能力。

DeepSeek-R1持续刷屏,连Open R1都来了!抱抱脸发起,1天狂揽1.9k星

量子位
量子位 · 2025-01-26T03:41:07Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码