3710亿数学tokens,全面开放!史上最大高质量开源数学预训练数据集MegaMath发布

3710亿数学tokens,全面开放!史上最大高质量开源数学预训练数据集MegaMath发布

💡 原文中文,约3300字,阅读约需8分钟。
📝

内容提要

MegaMath是全球最大的开源数学推理数据集,包含3710亿tokens,涵盖网页、代码和合成数据。其目的是提升语言模型的数学推理能力,解决现有数据集在规模和质量上的不足。经过多轮筛选和优化,MegaMath在数学任务上表现显著提升,推动了开源数学数据集的发展。

🎯

关键要点

  • MegaMath是全球最大的开源数学推理数据集,包含3710亿tokens,覆盖网页、代码和合成数据。

  • 该数据集旨在提升语言模型的数学推理能力,解决现有数据集在规模和质量上的不足。

  • MegaMath的数据集规模超越了DeepSeek-Math Corpus,代表了从「只靠网页」到「面向推理」的重大跨越。

  • MegaMath数据集分为三部分:2790亿tokens的数学密集网页数据、281亿tokens的数学相关代码和640亿tokens的高质量合成数据。

  • 构建MegaMath的过程中,团队进行了多轮筛选和优化,确保数据的实用性与泛化能力。

  • 网页数据的处理流程经过优化,确保数学文本的质量,采用了两段式提取方法。

  • 代码数据的召回流程结合了大模型评分和微调小模型的方式,形成了包含28.1B tokens的数学相关语料。

  • 合成数据成为大模型训练的重要部分,MegaMath团队开源了高质量的合成文本,包含Q&A问答形式和合成代码。

  • MegaMath在多个标准数学任务上取得了15-20%的绝对提升,显示出其在数学推理上的显著效果。

  • 作者希望MegaMath能推动开源数学预训练数据集的发展,并激发更多合作与创新。

延伸问答

MegaMath数据集的主要目的是什么?

MegaMath数据集旨在提升语言模型的数学推理能力,解决现有数据集在规模和质量上的不足。

MegaMath数据集包含多少tokens?

MegaMath数据集包含3710亿tokens。

MegaMath数据集是如何构建的?

MegaMath数据集经过多轮筛选和优化,分为数学密集网页数据、数学相关代码和高质量合成数据三部分。

MegaMath与其他数学数据集相比有什么优势?

MegaMath在规模上超越了DeepSeek-Math Corpus,并在数学推理任务上表现出15-20%的绝对提升。

MegaMath数据集的三部分分别是什么?

MegaMath数据集分为2790亿tokens的数学密集网页数据、281亿tokens的数学相关代码和640亿tokens的高质量合成数据。

MegaMath团队在数据处理上采取了哪些技术措施?

团队采用了两段式提取方法和动态打分机制,确保数据质量和教育价值。

➡️

继续阅读