MegaMath是全球最大的开源数学推理数据集,包含3710亿tokens,涵盖网页、代码和合成数据。其目的是提升语言模型的数学推理能力,解决现有数据集在规模和质量上的不足。经过多轮筛选和优化,MegaMath在数学任务上表现显著提升,推动了开源数学数据集的发展。
本研究解决了缺乏开放、大规模、高质量数学预训练语料库的问题,MegaMath提供了3710亿个令牌,成为现有数据集中数量最多、质量最高的,为数学中心的大型语言模型提供了重要支持。
完成下面两步后,将自动完成登录并继续当前操作。