姚顺宇谷歌首秀,Gemini新模型刷爆SOTA:人类仅剩7人捍卫碳基编程
💡
原文中文,约3200字,阅读约需8分钟。
📝
内容提要
谷歌推出的Gemini 3 Deep Think模型在多项基准测试中表现优异,Elo分数达到3455,仅次于7名人类程序员。该模型在AI推理能力测试中得分84.6%,并在科研领域降低推理成本82%。清华校友姚顺宇参与了该模型的开发,展现出强大的科学应用潜力。
🎯
关键要点
- 谷歌推出的Gemini 3 Deep Think模型在Codeforces上取得3455 Elo分数,仅次于7名人类程序员。
- 该模型在AI推理能力测试ARC-AGI-2中得分84.6%,显著高于之前的模型。
- Gemini 3 Deep Think在HLE测试中刷新SOTA,得分48.4%。
- 该模型旨在推动科学、研究和工程领域的发展,具备强大的科学应用潜力。
- 清华校友姚顺宇参与了Gemini 3 Deep Think的开发,展现出其在科研领域的应用能力。
- Gemini 3 Deep Think能够分析草图并生成3D打印文件,成功识别复杂数学论文中的逻辑缺陷。
- 推理成本降低82%,每项任务成本仅需13.62美元。
- Gemini 3 Deep Think在化学和物理等领域同样表现出色,取得金牌级别的成绩。
- 研发团队中有多位华人科学家,包括Yi Tay和姚顺宇,他们在AI和大语言模型领域有丰富经验。
➡️