机器之心 ·

3710亿数学tokens，全面开放！史上最大高质量开源数学预训练数据集MegaMath发布

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

MegaMath是全球最大的开源数学推理数据集，包含3710亿tokens，涵盖网页、代码和合成数据。其目的是提升语言模型的数学推理能力，解决现有数据集在规模和质量上的不足。经过多轮筛选和优化，MegaMath在数学任务上表现显著提升，推动了开源数学数据集的发展。

🎯

关键要点

MegaMath是全球最大的开源数学推理数据集，包含3710亿tokens，覆盖网页、代码和合成数据。
该数据集旨在提升语言模型的数学推理能力，解决现有数据集在规模和质量上的不足。
MegaMath的数据集规模超越了DeepSeek-Math Corpus，代表了从「只靠网页」到「面向推理」的重大跨越。
MegaMath数据集分为三部分：2790亿tokens的数学密集网页数据、281亿tokens的数学相关代码和640亿tokens的高质量合成数据。
构建MegaMath的过程中，团队进行了多轮筛选和优化，确保数据的实用性与泛化能力。
网页数据的处理流程经过优化，确保数学文本的质量，采用了两段式提取方法。
代码数据的召回流程结合了大模型评分和微调小模型的方式，形成了包含28.1B tokens的数学相关语料。
合成数据成为大模型训练的重要部分，MegaMath团队开源了高质量的合成文本，包含Q&A问答形式和合成代码。
MegaMath在多个标准数学任务上取得了15-20%的绝对提升，显示出其在数学推理上的显著效果。
作者希望MegaMath能推动开源数学预训练数据集的发展，并激发更多合作与创新。

🔎

延伸解读

数据集的规模与质量

MegaMath的数据集规模达到3710亿tokens，远超以往的开源数学数据集。这一规模不仅解决了现有数据集在数量上的不足，还通过多轮筛选和优化，确保了数据的高质量。这意味着研究人员可以在更大范围内进行数学推理的训练，提升模型的表现。

合成数据的重要性

MegaMath团队重视合成数据的应用，开源了多种形式的高质量合成文本。这些合成数据不仅丰富了训练样本，还为模型提供了更多样化的学习场景，尤其是在传统数据稀缺的情况下，合成数据成为了重要的补充。

技术创新与数据处理

在构建MegaMath的过程中，团队采用了创新的两段式提取方法和动态打分机制，确保了数学文本的高效提取与质量控制。这些技术创新不仅提升了数据处理的效率，也为后续的模型训练提供了更为精准的基础。

未来的合作与发展

作者希望MegaMath的发布能够激发更多的学术与工业界合作，推动开源数学预训练数据集的发展。随着更多研究者的参与，MegaMath有潜力成为构建更强大数学语言模型的重要基础，促进数学推理能力的进一步提升。

❓

延伸问答

MegaMath数据集的主要目的是什么？

MegaMath数据集旨在提升语言模型的数学推理能力，解决现有数据集在规模和质量上的不足。

MegaMath数据集包含多少tokens？

MegaMath数据集包含3710亿tokens。

MegaMath数据集是如何构建的？

MegaMath数据集经过多轮筛选和优化，分为数学密集网页数据、数学相关代码和高质量合成数据三部分。

MegaMath与其他数学数据集相比有什么优势？

MegaMath在规模上超越了DeepSeek-Math Corpus，并在数学推理任务上表现出15-20%的绝对提升。

MegaMath数据集的三部分分别是什么？

MegaMath数据集分为2790亿tokens的数学密集网页数据、281亿tokens的数学相关代码和640亿tokens的高质量合成数据。

MegaMath团队在数据处理上采取了哪些技术措施？

团队采用了两段式提取方法和动态打分机制，确保数据质量和教育价值。

🏷️