【数学数据集汇总】天才博士陶哲轩力荐数据集!含代码、中文竞赛题目、正向逆向问答对等|持续更新中!!

原文约2500字,阅读约需6分钟。发表于:

Proof-Pile-2 是一个包含 550 亿个数学和科学文档的 token 数据集,融合了科学论文、数学相关的网络内容和数学代码,其知识截止于 2023 年 4 月。Orca-Math-200K 是微软创建的高质量数学问题数据集,包含约 20 万小学数学题目,此数据集中的所有答案都是使用 Azure GPT4-Turbo 生成的。Ape210K 是一个大规模且模板丰富的数学单词问题数据集,包含 210K 个中国小学水平的数学问题,每个问题都包含最佳答案和得出答案所需的方程式。

陶哲轩发布了「AI for Math Resourses」的资源清单,包括OpenWebMath、Ape210K、Proof-Pile-2等数据集,旨在帮助人工智能数学领域的人。HyperAI筛选了部分数据集供下载使用,并补充了其他数学方面的数据集。

相关推荐 去reddit讨论