量子位 ·

姚顺宇谷歌首秀，Gemini新模型刷爆SOTA：人类仅剩7人捍卫碳基编程

💡 原文中文，约3200字，阅读约需8分钟。

📝

内容提要

谷歌推出的Gemini 3 Deep Think模型在多项基准测试中表现优异，Elo分数达到3455，仅次于7名人类程序员。该模型在AI推理能力测试中得分84.6%，并在科研领域降低推理成本82%。清华校友姚顺宇参与了该模型的开发，展现出强大的科学应用潜力。

🎯

关键要点

谷歌推出的Gemini 3 Deep Think模型在Codeforces上取得3455 Elo分数，仅次于7名人类程序员。
该模型在AI推理能力测试ARC-AGI-2中得分84.6%，显著高于之前的模型。
Gemini 3 Deep Think在HLE测试中刷新SOTA，得分48.4%。
该模型旨在推动科学、研究和工程领域的发展，具备强大的科学应用潜力。
清华校友姚顺宇参与了Gemini 3 Deep Think的开发，展现出其在科研领域的应用能力。
Gemini 3 Deep Think能够分析草图并生成3D打印文件，成功识别复杂数学论文中的逻辑缺陷。
推理成本降低82%，每项任务成本仅需13.62美元。
Gemini 3 Deep Think在化学和物理等领域同样表现出色，取得金牌级别的成绩。
研发团队中有多位华人科学家，包括Yi Tay和姚顺宇，他们在AI和大语言模型领域有丰富经验。

🏷️

继续阅读

黑马图像模型被Nano Banana技术负责人点赞！15人华人小队，DDIM之父&CVPR最佳论文作者带队
Luma AI推出的Uni-1模型在图像理解与生成方面表现优异，超越谷歌的Nano Banana Pro和GPT Image 1.5。该模型由不到15人的...
连龙虾都不会装的人，怎么会用龙虾呢?
文章讨论了在缺乏明确使用场景的情况下盲目安装AI工具（如龙虾）的问题。作者强调，工具的价值在于清晰的任务和合理的流程设计，而非单纯的安装。许多人未能识别自...
我们的开源AI模型SpeciesNet如何助力野生动物保护
SpeciesNet是一个AI模型，能够自动识别近2500种动物，帮助生物学家和保护者快速分析相机捕捉的数据。自2019年起，该工具在多个国家的项目中应用...
特朗普的卫生部长提名人完美地执行了健康骗子的剧本
代谢问题可能导致勃起功能障碍，但焦虑、压力和药物等因素也会影响。功能医学关注健康问题的根本原因，尽管存在一些争议。
免费无限量的 GLM-5、Qwen3.5-398B 模型，AtomGit 限时免费
AtomGit推出限时活动，用户可免费使用GLM-5和Qwen3.5-398B模型。但OpenClaw的上下文限制为16K，可能存在设置错误。注册后可调用...
技术获 NVIDIA、Pi 双重认可！原力灵机 DM0 模型重塑具身智能新范式
原力灵机 DM0 模型通过 MemoryVLA 和 Real-time VLA 技术，获得 NVIDIA 和 Pi 的认可，显著提升了机器人的智能和反应速...

姚顺宇谷歌首秀，Gemini新模型刷爆SOTA：人类仅剩7人捍卫碳基编程

内容提要

关键要点

标签

继续阅读