量子位 ·

北大AI奥数评测，o1-mini比o1-preview分数还高

💡 原文中文，约3100字，阅读约需8分钟。

📝

内容提要

北京大学与阿里巴巴联合研发了数学竞赛评测基准Omni-MATH，收录了4428道竞赛级别问题，涵盖33个子领域，分为10个难度级别。排行榜上o1-mini表现最佳，平均分比o1-preview高8%。Omni-MATH特点是可靠的答案验证、清晰合理的难度分类和广泛的题目类型。数据来源包括比赛题目、题解和数学网站Art of Problem Solving。评测集经过细致调研和人工筛选，题解转换成Latex格式并人工检查答案准确性。团队还开发了开源答案验证器Omni-Judge。

🎯

关键要点

北京大学与阿里巴巴联合研发了数学竞赛评测基准Omni-MATH，收录4428道竞赛级别问题。
Omni-MATH涵盖33个子领域，分为10个难度级别，专门用于评估大型语言模型的数学推理能力。
排行榜上o1-mini表现最佳，平均分比o1-preview高8%。
Omni-MATH的特点包括可靠的答案验证、清晰合理的难度分类和广泛的题目类型。
数据来源包括比赛题目、题解和数学网站Art of Problem Solving，经过人工筛选和验证。
团队开发了开源答案验证器Omni-Judge，用于验证待测答案的准确性。
评测集经过细致调研，考虑到不同难度层级和数学领域的多样性。
数据处理包括将题解转换为Latex格式，并进行人工检查以确保准确性。
Omni-MATH的树状分类体系有助于理解不同题目之间的关系和模型表现。

❓

延伸问答

Omni-MATH是什么？

Omni-MATH是北京大学与阿里巴巴联合研发的数学竞赛评测基准，收录4428道竞赛级别问题，涵盖33个子领域，分为10个难度级别。

o1-mini和o1-preview的表现如何？

o1-mini在排行榜上的表现最佳，平均分比o1-preview高8%。

Omni-MATH的特点是什么？

Omni-MATH的特点包括可靠的答案验证、清晰合理的难度分类和广泛的题目类型。

Omni-MATH的数据来源是什么？

Omni-MATH的数据来源包括各种数学竞赛的题目和题解，以及数学网站Art of Problem Solving。

如何验证Omni-MATH的答案？

团队开发了开源答案验证器Omni-Judge，用于验证待测答案的准确性，评测一致率高达95%。

Omni-MATH的难度分类是如何进行的？

Omni-MATH的难度分类参考了不同比赛的题目难度，严格按照AoPS网站上给出的难度系数进行标注。

🏷️