结构之法算法之道 ·

MTP——我对DeepSeek V3中多token预测MTP的代码实现(含对V3官方MoE、MLA推理代码的解读)

💡 原文中文，约5700字，阅读约需14分钟。

📝

内容提要

本文介绍了Open R1的开源内容及其复现R1训练流程的过程，包括GRPO实现、数据生成和评估。OpenR1-Math-220k数据集生成了22万条高质量数学推理数据，提升了模型性能。通过改进验证工具和使用奖励模型，确保了数据质量和推理能力。

🎯

🔎

Open R1的开源内容不仅包括GRPO实现和数据生成器，还复现了R1训练流程的前两个阶段。这为研究人员提供了一个可操作的框架，能够在没有依赖官方资源的情况下进行模型训练和评估，促进了开源社区的合作与创新。

OpenR1-Math-220k数据集通过生成80万条推理轨迹并筛选出22万条高质量数据，填补了现有推理数据集的空白。与其他数据集相比，该数据集专注于数学推理，且通过严格的验证系统确保数据质量，具有较高的实用性和可靠性。

在数据生成过程中，Open R1团队面临着确保生成答案的正确性和格式一致性的挑战。通过改进验证工具和使用奖励模型进行评分，团队努力提升数据集的质量。然而，消融实验显示，奖励模型的效果并未显著优于随机选择，提示在数据处理时需综合考虑推理过程。

❓

Open R1项目旨在复现R1正式版的训练流程，并开源相关代码和数据生成工具。

OpenR1-Math-220k数据集包含22万条高质量数学推理数据，分为default和extended两个部分，分别包含94k和131k问题。

OpenR1团队设计了数学验证系统，通过自动比对生成的答案与标准答案，确保数据集只包含高质量且正确的推理结果。

Open R1使用DeepSeek R1生成推理轨迹，并通过vLLM和SGLang在计算集群上本地运行生成任务。

Open R1在OpenR1-Math-220k基础上对Qwen2.5-Math-Instruct进行了微调，提升了模型性能。

奖励模型用于对包含多个正确答案的数据行进行评分，选择最佳答案纳入训练数据集。

🏷️