姚顺宇谷歌首秀,Gemini新模型刷爆SOTA:人类仅剩7人捍卫碳基编程

💡 原文中文,约3200字,阅读约需8分钟。
📝

内容提要

谷歌推出的Gemini 3 Deep Think模型在多项基准测试中表现优异,Elo分数达到3455,仅次于7名人类程序员。该模型在AI推理能力测试中得分84.6%,并在科研领域降低推理成本82%。清华校友姚顺宇参与了该模型的开发,展现出强大的科学应用潜力。

🎯

关键要点

  • 谷歌推出的Gemini 3 Deep Think模型在Codeforces上取得3455 Elo分数,仅次于7名人类程序员。
  • 该模型在AI推理能力测试ARC-AGI-2中得分84.6%,显著高于之前的模型。
  • Gemini 3 Deep Think在HLE测试中刷新SOTA,得分48.4%。
  • 该模型旨在推动科学、研究和工程领域的发展,具备强大的科学应用潜力。
  • 清华校友姚顺宇参与了Gemini 3 Deep Think的开发,展现出其在科研领域的应用能力。
  • Gemini 3 Deep Think能够分析草图并生成3D打印文件,成功识别复杂数学论文中的逻辑缺陷。
  • 推理成本降低82%,每项任务成本仅需13.62美元。
  • Gemini 3 Deep Think在化学和物理等领域同样表现出色,取得金牌级别的成绩。
  • 研发团队中有多位华人科学家,包括Yi Tay和姚顺宇,他们在AI和大语言模型领域有丰富经验。
➡️

继续阅读