生成数学 AI:第一部分 --MathPile:一个十亿词级别的数学预训练语料库
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
MathPile是一个高质量、大规模的数学专注语料库,包含约95亿个标记。通过严谨的数据收集和处理工作,确保了语料库的高质量。MathPile旨在提高语言模型的数学推理能力,并计划开源不同版本以促进该领域的发展。
🎯
关键要点
-
MathPile是一个高质量、大规模的数学专注语料库,包含约95亿个标记。
-
通过复杂的预处理、预筛选、语言识别、清洁、过滤和去重等一系列严谨的数据收集和处理工作,确保了语料库的高质量。
-
对下游基准测试集进行了数据污染检测以消除重复项。
-
希望MathPile能够提高语言模型的数学推理能力。
-
计划开源不同版本的MathPile以及用于处理的脚本,以促进该领域的未来发展。
➡️