OpenAI 最强模型被曝造假!提前获取测试题,顶级数学家被蒙在鼓里

OpenAI 最强模型被曝造假!提前获取测试题,顶级数学家被蒙在鼓里

💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

OpenAI因其o3模型在FrontierMath基准测试中的表现引发争议,因承包商透露其获得了测试题库的特权访问权,质疑其公平性。Epoch AI承认未及时披露此信息,并承诺未来提高透明度。专家批评OpenAI的做法,认为缺乏公正性。

🎯

关键要点

  • OpenAI因o3模型在FrontierMath基准测试中的表现引发争议。
  • Epoch AI承包商透露OpenAI获得了测试题库的特权访问权,质疑其公平性。
  • Epoch AI承认未及时披露OpenAI的参与,并承诺未来提高透明度。
  • FrontierMath是由Epoch AI和顶级数学家共同打造的高级数学推理能力评估基准。
  • o3模型在FrontierMath测试中以25.2%的准确率领先其他模型。
  • Epoch AI副主任承认未能早期披露信息,表示未来会更努力争取透明性。
  • 斯坦福大学数学博士生称OpenAI独占测试访问权限,影响了其他数学家的参与决策。
  • Epoch AI首席数学家承认未主动披露资助信息,并向受影响的数学家道歉。
  • 计算机科学家和AI专家对OpenAI的做法提出批评,认为缺乏公正性。
  • OpenAI在展示过程中选择性地隐藏了关键信息,未公布成功与失败案例。
  • OpenAI宣布其新项目「Operator」取得突破,计划向美国政府进行简报。

延伸问答

OpenAI的o3模型在FrontierMath测试中的表现如何?

o3模型在FrontierMath测试中以25.2%的准确率领先其他模型。

Epoch AI承包商透露了什么关于OpenAI的秘密?

Epoch AI承包商透露OpenAI获得了FrontierMath测试题库的特权访问权。

Epoch AI对未及时披露信息的态度是什么?

Epoch AI承认未及时披露OpenAI的参与,并承诺未来提高透明度。

为什么OpenAI的做法受到批评?

批评者认为OpenAI的做法缺乏公正性,影响了其他数学家的参与决策。

FrontierMath基准测试的背景是什么?

FrontierMath是由Epoch AI和顶级数学家共同打造的高级数学推理能力评估基准。

OpenAI在展示过程中做了哪些选择性隐瞒?

OpenAI选择性地隐藏了关键信息,未公布成功与失败案例,也没有提供推理过程记录。

➡️

继续阅读