【数学数据集汇总】天才博士陶哲轩力荐数据集!含代码、中文竞赛题目、正向逆向问答对等|持续更新中!!
原文中文,约2500字,阅读约需6分钟。发表于: 。Proof-Pile-2 是一个包含 550 亿个数学和科学文档的 token 数据集,融合了科学论文、数学相关的网络内容和数学代码,其知识截止于 2023 年 4 月。Orca-Math-200K 是微软创建的高质量数学问题数据集,包含约 20 万小学数学题目,此数据集中的所有答案都是使用 Azure GPT4-Turbo 生成的。Ape210K...
陶哲轩发布了「AI for Math Resourses」的资源清单,包括OpenWebMath、Ape210K、Proof-Pile-2等数据集,旨在帮助人工智能数学领域的人。HyperAI筛选了部分数据集供下载使用,并补充了其他数学方面的数据集。