姚顺宇谷歌首秀,Gemini新模型刷爆SOTA:人类仅剩7人捍卫碳基编程

💡 原文中文,约3200字,阅读约需8分钟。
📝

内容提要

谷歌推出的Gemini 3 Deep Think模型在多项基准测试中表现优异,Elo分数达到3455,仅次于7名人类程序员。该模型在AI推理能力测试中得分84.6%,并在科研领域降低推理成本82%。清华校友姚顺宇参与了该模型的开发,展现出强大的科学应用潜力。

🎯

关键要点

  • 谷歌推出的Gemini 3 Deep Think模型在Codeforces上取得3455 Elo分数,仅次于7名人类程序员。

  • 该模型在AI推理能力测试ARC-AGI-2中得分84.6%,显著高于之前的模型。

  • Gemini 3 Deep Think在HLE测试中刷新SOTA,得分48.4%。

  • 该模型旨在推动科学、研究和工程领域的发展,具备强大的科学应用潜力。

  • 清华校友姚顺宇参与了Gemini 3 Deep Think的开发,展现出其在科研领域的应用能力。

  • Gemini 3 Deep Think能够分析草图并生成3D打印文件,成功识别复杂数学论文中的逻辑缺陷。

  • 推理成本降低82%,每项任务成本仅需13.62美元。

  • Gemini 3 Deep Think在化学和物理等领域同样表现出色,取得金牌级别的成绩。

  • 研发团队中有多位华人科学家,包括Yi Tay和姚顺宇,他们在AI和大语言模型领域有丰富经验。

延伸问答

Gemini 3 Deep Think模型的Elo分数是多少?

Gemini 3 Deep Think模型在Codeforces上取得了3455 Elo分数,仅次于7名人类程序员。

Gemini 3 Deep Think在AI推理能力测试中得分如何?

该模型在ARC-AGI-2测试中得分84.6%,显著高于之前的模型。

姚顺宇在Gemini 3 Deep Think的开发中扮演了什么角色?

姚顺宇参与了Gemini 3 Deep Think的开发,展现出其在科研领域的应用能力。

Gemini 3 Deep Think如何降低推理成本?

推理成本降低了82%,每项任务的成本仅需13.62美元。

Gemini 3 Deep Think在科研领域的应用有哪些?

该模型能够分析草图、生成3D打印文件,并识别复杂数学论文中的逻辑缺陷。

Gemini 3 Deep Think在化学和物理领域的表现如何?

在化学和物理等领域,Gemini 3 Deep Think取得了金牌级别的成绩。

➡️

继续阅读