姚顺宇谷歌首秀,Gemini新模型刷爆SOTA:人类仅剩7人捍卫碳基编程
内容提要
谷歌推出的Gemini 3 Deep Think模型在多项基准测试中表现优异,Elo分数达到3455,仅次于7名人类程序员。该模型在AI推理能力测试中得分84.6%,并在科研领域降低推理成本82%。清华校友姚顺宇参与了该模型的开发,展现出强大的科学应用潜力。
关键要点
-
谷歌推出的Gemini 3 Deep Think模型在Codeforces上取得3455 Elo分数,仅次于7名人类程序员。
-
该模型在AI推理能力测试ARC-AGI-2中得分84.6%,显著高于之前的模型。
-
Gemini 3 Deep Think在HLE测试中刷新SOTA,得分48.4%。
-
该模型旨在推动科学、研究和工程领域的发展,具备强大的科学应用潜力。
-
清华校友姚顺宇参与了Gemini 3 Deep Think的开发,展现出其在科研领域的应用能力。
-
Gemini 3 Deep Think能够分析草图并生成3D打印文件,成功识别复杂数学论文中的逻辑缺陷。
-
推理成本降低82%,每项任务成本仅需13.62美元。
-
Gemini 3 Deep Think在化学和物理等领域同样表现出色,取得金牌级别的成绩。
-
研发团队中有多位华人科学家,包括Yi Tay和姚顺宇,他们在AI和大语言模型领域有丰富经验。
延伸问答
Gemini 3 Deep Think模型的Elo分数是多少?
Gemini 3 Deep Think模型在Codeforces上取得了3455 Elo分数,仅次于7名人类程序员。
Gemini 3 Deep Think在AI推理能力测试中得分如何?
该模型在ARC-AGI-2测试中得分84.6%,显著高于之前的模型。
姚顺宇在Gemini 3 Deep Think的开发中扮演了什么角色?
姚顺宇参与了Gemini 3 Deep Think的开发,展现出其在科研领域的应用能力。
Gemini 3 Deep Think如何降低推理成本?
推理成本降低了82%,每项任务的成本仅需13.62美元。
Gemini 3 Deep Think在科研领域的应用有哪些?
该模型能够分析草图、生成3D打印文件,并识别复杂数学论文中的逻辑缺陷。
Gemini 3 Deep Think在化学和物理领域的表现如何?
在化学和物理等领域,Gemini 3 Deep Think取得了金牌级别的成绩。