小红花·文摘 - 小红花技术领袖俱乐部

本文介绍了Open R1项目的开源内容，包括GRPO算法实现、数据生成器和训练代码。Open R1复现了R1的训练流程，并提供了OpenR1-Math-220k数据集，以提升数学推理能力。通过详细的数据生成、过滤和评估过程，Open R1团队确保了数据的高质量和准确性。

R1-Zero与R1的复现之路——从Open-Reasoner-Zero到Open R1：先后涉及规则奖励下的PPO迭代，及SFT+GRPO的复现

结构之法算法之道 ·

本文介绍了Open R1的开源内容及其复现R1训练流程的过程，包括GRPO实现、数据生成和评估。OpenR1-Math-220k数据集生成了22万条高质量数学推理数据，提升了模型性能。通过改进验证工具和使用奖励模型，确保了数据质量和推理能力。

MTP——我对DeepSeek V3中多token预测MTP的代码实现(含对V3官方MoE、MLA推理代码的解读)

结构之法算法之道 ·

开源22万条DeepSeek R1的高质量数据！你也能复现DeepSeek了

开源22万条DeepSeek R1的高质量数据！你也能复现DeepSeek了

机器之心 ·

DeepSeek-R1项目引发关注，HuggingFace推出Open R1，旨在开源复制DeepSeek-R1。项目上线一天即获1.9k星，计划通过蒸馏和强化学习等方法提升AI能力。

DeepSeek-R1持续刷屏，连Open R1都来了！抱抱脸发起，1天狂揽1.9k星

量子位 ·