机器之心 ·

开源22万条DeepSeek R1的高质量数据！你也能复现DeepSeek了

💡 原文中文，约6600字，阅读约需16分钟。

📝

内容提要

Open R1项目旨在完全复现DeepSeek-R1，已发布OpenR1-Math-220k数据集，生成22万条高质量推理数据，支持小模型达到与DeepSeek相当的性能，推动开源社区发展。

🎯

🔎

OpenR1-Math-220k 数据集的发布标志着开源社区在 AI 领域的进一步发展。通过提供高质量的推理数据，开发者可以利用这些数据训练小模型，达到与大型模型相当的性能。这不仅降低了技术门槛，也促进了更多创新应用的出现。

Open R1 团队在数据生成过程中面临着确保数据质量的挑战。他们设计了数学验证系统来筛选高质量样本，尽管仍有约 55% 的问题存在格式不符的情况。这表明，数据的准确性和格式化在模型训练中至关重要，未来需要进一步优化验证工具。

研究表明，少量高质量样本能够显著提升小模型的推理能力。OpenR1-Math-220k 数据集的成功应用证明了这一点，尤其是在 Qwen-7B-Math-Instruct 模型上，达到了与 DeepSeek-Distill-Qwen-7B 相当的性能。这为小模型的应用提供了新的思路和可能性。

❓

Open R1项目旨在完全复现DeepSeek-R1，推动开源社区的发展。

OpenR1-Math-220k数据集生成了22万条高质量推理数据。

Open R1团队使用DeepSeek R1生成80万条推理轨迹，经过筛选和验证后得到22万条高质量数据。

数据集分为default（94k问题）和extended（131k问题）两个部分。

Open R1团队与Numina合作，改进数据生成和验证过程。

Open R1团队设计了数学验证系统，确保数据质量，并通过自动过滤保留至少有一个正确答案的问题。

🏷️