量子位 ·

o3数学成绩作弊大瓜！提前让测试机构给真题，60多名数学大牛全被蒙在鼓里

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

OpenAI的o3数学成绩被指控作弊，因其提前获得了由60多位数学家出题的FrontierMath测试题。Epoch.ai承认与OpenAI有秘密协议，但否认作弊。专家对保密协议表示困惑，质疑OpenAI的动机，o3的真实能力仍待揭晓。

🎯

关键要点

OpenAI的o3数学成绩被指控作弊，因提前获得FrontierMath测试题。
Epoch.ai承认与OpenAI有秘密协议，但否认OpenAI作弊。
参与出题的60多名数学家在消息曝光前对此毫不知情。
FrontierMath测试基准由权威数学家命制，难度极高。
Epoch.ai的联合创始人承认未公开合作关系是错误，但否认OpenAI使用数据作弊。
专家对OpenAI的动机表示质疑，认为其可能用于训练。
Epoch.ai表示将开发保留数据集，确保OpenAI无法提前接触测试题。
o3的真实能力仍待揭晓，是否为炒作噱头尚不明朗。

🔎

延伸解读

保密协议的风险

Epoch.ai与OpenAI之间的秘密协议引发了广泛的质疑，尤其是关于保密协议的有效性。专家们担心，这种保密可能导致数据的滥用或不当使用，影响测试的公正性。未来，如何确保数据的透明性和公正性将是关键。

o3的真实能力待考

尽管o3在FrontierMath测试中表现突出，但其成绩的真实性仍然受到质疑。专家们对OpenAI的动机表示怀疑，认为其可能利用提前获得的信息进行训练。o3的实际能力是否如宣传所言，仍需进一步验证。

数学测试的挑战性

FrontierMath测试由60多位顶尖数学家设计，难度极高，解决率不到2%。即使o3存在作弊争议，其在如此高难度测试中的表现仍然值得关注。未来的AI模型在面对复杂数学问题时的能力将是一个重要的研究方向。

❓

延伸问答

OpenAI的o3数学成绩被指控作弊的原因是什么？

因为OpenAI提前获得了由60多位数学家出题的FrontierMath测试题。

Epoch.ai对OpenAI的作弊指控有什么回应？

Epoch.ai承认与OpenAI有秘密协议，但否认OpenAI作弊。

参与出题的数学家对事件的反应如何？

参与出题的60多名数学家在消息曝光前对此毫不知情，感到困惑。

FrontierMath测试的难度如何？

FrontierMath测试包含数百个极具挑战性的数学问题，难度极高，之前的模型解决率不到2%。

Epoch.ai未来有什么计划以防止类似事件发生？

Epoch.ai表示将开发保留数据集，确保OpenAI无法提前接触测试题。

o3的真实能力目前如何评估？

o3的真实能力仍待揭晓，是否为炒作噱头尚不明朗。

🏷️

标签

Epoch.ai FrontierMath OpenAI o3 作弊

➡️

继续阅读

掌管 Codex 额度的「赛博义父」，到底什么来头
Tibo是OpenAI的Codex负责人，以频繁重置用户额度而闻名。他在社交媒体上与用户互动，积累了大量粉丝。Tibo从小展现出编程天赋，曾在Google...
一句「哈哈」引发的苹果OpenAI窃密大战
苹果起诉OpenAI及前员工Chang Liu，指控其在离职后仍能访问苹果内部网络，下载机密文件并与在职员工讨论项目。苹果发现超过400名前员工流向Ope...
OpenAI的GPT-Red自动化提示注入测试，以增强AI代理的安全性
OpenAI推出了GPT-Red，一个自动化的红队系统，旨在大规模发现AI模型的提示注入漏洞。该系统通过自我对抗学习，快速测试数千种攻击变体，提升了GPT...
二代豆包手机正式亮相：AI全自动办事，但能带动手机销量吗？ | 全球深一度
(全球TMT 2026年07月17日讯)7月17日，在上海世界人工智能大会(WAIC 2026)现场，第二代豆 […]
开源AI检测器实测：你刷的热榜网文三成不对劲
3000万token烧掉2000美金，结果就为了逮住那些连Markdown都不删就收费的AI同人文，这买卖亏不亏？一篇2026年初的技术博客炸出了个扎心...
到2035年，云通信平台市场规模将超过1164亿美元
随着企业持续用支持语音、消息、视频会议、协作及客户互动的云原生平台取代传统通信基础设施，通过统一的数字环境提供服务，全球云通信平台市场预计将实现显著增长。...