爱范儿 ·

OpenAI 最强模型被曝造假！提前获取测试题，顶级数学家被蒙在鼓里

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

OpenAI因其o3模型在FrontierMath基准测试中的表现引发争议，因承包商透露其获得了测试题库的特权访问权，质疑其公平性。Epoch AI承认未及时披露此信息，并承诺未来提高透明度。专家批评OpenAI的做法，认为缺乏公正性。

🎯

🔎

OpenAI在FrontierMath基准测试中的特权访问权引发了对其公平性的质疑。这不仅影响了其他参与者的信心，也可能对未来的AI研究和评估标准产生深远影响。若不解决透明度问题，可能导致更多学者和开发者对参与类似项目的兴趣降低。

Epoch AI承诺提高透明度，但这一事件凸显了在科研和技术开发中透明度的重要性。缺乏透明度可能导致信任危机，影响合作伙伴关系和公众对AI技术的接受度。未来，相关机构需建立更严格的信息披露机制，以维护行业的公正性。

此次事件引发了广泛的行业反响，许多专家对OpenAI的做法表示担忧。随着AI技术的不断发展，如何确保公平竞争和透明评估将成为行业关注的焦点。OpenAI及其合作伙伴需要采取切实措施，重建信任，避免类似事件再次发生。

❓

o3模型在FrontierMath测试中以25.2%的准确率领先其他模型。

Epoch AI承包商透露OpenAI获得了FrontierMath测试题库的特权访问权。

Epoch AI承认未及时披露OpenAI的参与，并承诺未来提高透明度。

批评者认为OpenAI的做法缺乏公正性，影响了其他数学家的参与决策。

FrontierMath是由Epoch AI和顶级数学家共同打造的高级数学推理能力评估基准。

OpenAI选择性地隐藏了关键信息，未公布成功与失败案例，也没有提供推理过程记录。

🏷️