生成数学 AI:第一部分 --MathPile:一个十亿词级别的数学预训练语料库
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
MathPile是一个高质量、大规模的数学专注语料库,包含约95亿个标记。通过严谨的数据收集和处理工作,确保了语料库的高质量。MathPile旨在提高语言模型的数学推理能力,并计划开源不同版本以促进该领域的发展。
🎯
关键要点
- MathPile是一个高质量、大规模的数学专注语料库,包含约95亿个标记。
- 通过复杂的预处理、预筛选、语言识别、清洁、过滤和去重等一系列严谨的数据收集和处理工作,确保了语料库的高质量。
- 对下游基准测试集进行了数据污染检测以消除重复项。
- 希望MathPile能够提高语言模型的数学推理能力。
- 计划开源不同版本的MathPile以及用于处理的脚本,以促进该领域的未来发展。
➡️