Jeff Dean 深度访谈：一页纸备忘录促成 Gemini 的诞生，Google AI 的反击与 10,000 Token 的未来

宝玉的分享 ·

Jeff Dean 深度访谈：一页纸备忘录促成 Gemini 的诞生，Google AI 的反击与 10,000 Token 的未来

💡 原文中文，约10900字，阅读约需26分钟。

📝

内容提要

Jeff Dean 参与了 Google 的 AI 基础设施建设，包括 Gemini 项目。他在播客中讨论了蒸馏技术、AI 模型的需求与未来发展，强调前沿模型与小模型的关系，以及通过分层检索实现复杂任务的方式。他预测个性化模型将超越通用模型，未来目标是达到每秒处理 10,000 个 token 的速度。

🎯

关键要点

Jeff Dean 参与了 Google 的 AI 基础设施建设，包括 Gemini 项目。
蒸馏技术是连接前沿大模型与小模型的桥梁，前沿模型是蒸馏的前提。
长上下文的目标是实现 AI 能够关注整个互联网，但现有的注意力机制存在限制。
批处理的必要性源于能量消耗的巨大差异，矩阵运算与数据搬运的能量成本相差1000倍。
Google 维护前沿 Pro 模型与低延迟 Flash 模型两条线，蒸馏技术将两者结合。
用户需求的复杂性推动了对前沿模型的需求，前沿模型的价值在于探索能力的边界。
蒸馏技术的起源是为了解决多个专家模型的部署问题。
Flash 模型的处理量已超过 50 万亿 token，广泛应用于 Gmail、YouTube 和 Google 搜索。
Google 内部使用保留测试集来推动模型的改进，确保基准测试的有效性。
长上下文的最终目标是实现 AI 能够覆盖整个互联网的信息检索。
Gemini 是多模态设计，支持多种数据模态的处理。
Google 搜索在 2001 年将索引搬入内存，显著提升了查询质量。
AI 时代需要关注能量效率，批处理的逻辑基于能量消耗的考虑。
Google 的 TPU 硬件设计需要预测未来 2-6 年的 ML 需求。
强化学习在非可验证领域的应用是一个重要的开放研究方向。
Gemini 项目是通过合并 Google Brain 和 DeepMind 的成果而诞生的。
个性化模型将超越通用模型，未来目标是实现每秒处理 10,000 个 token 的速度。

❓

延伸问答

Jeff Dean 在播客中讨论了哪些关于 AI 模型的技术？

Jeff Dean 讨论了蒸馏技术、长上下文的目标、批处理的必要性以及个性化模型的未来等技术。

Gemini 项目的核心目标是什么？

Gemini 项目的核心目标是实现多模态设计，支持多种数据模态的处理，并提升 AI 在复杂任务中的表现。

蒸馏技术在 AI 模型中有什么作用？

蒸馏技术是连接前沿大模型与小模型的桥梁，能够将大模型的知识压缩到小模型中，从而提高小模型的性能。

Jeff Dean 对未来 AI 模型的处理速度有什么预测？

Jeff Dean 预测未来 AI 模型的处理速度将达到每秒处理 10,000 个 token 的目标。

Google 如何应对 AI 时代的能量效率问题？

Google 关注能量效率，批处理的逻辑基于能量消耗的考虑，以降低能量成本并提高计算效率。

Jeff Dean 如何看待个性化模型与通用模型的关系？

Jeff Dean 认为个性化模型将超越通用模型，能够提供更符合用户需求的服务。

🏷️

继续阅读

谷歌希望向Google Play应用开发者付费购买开发者的应用源代码用于训练模型
谷歌希望向 Google Play 开发者付费，以获取应用程序代码库的访问权，旨在利用这些优质代码训练其人工智能模型 Gemini。开发者将保留100%的...
微软首款高级推理人工智能问世
微软在2026年Build大会上发布了多款新AI模型，旗舰模型MAI-Thinking-1是其自主开发的重要进展，表现优异，基于干净数据训练。此外，还推出...
谷歌必须允许出版商选择退出AI搜索功能，英国裁定
英国竞争与市场管理局（CMA）裁定，谷歌必须允许网站所有者选择是否让其内容用于AI搜索功能。这一新规将增强出版商与谷歌的谈判能力，并确保内容得到适当归属。...
量子破解倒计时：Google 10倍优化被保密，法国破解
量子计算进展迅速，Google的Shor算法优化被法国专家破解，显示出对密码学的威胁加剧。研究表明，破解比特币密码可能只需一万个量子比特，预计2032年前...
单月营收破10亿，字节跳动终于等来自己的“AI印钞机”
字节跳动的Seedance 2.0视频生成模型自发布以来迅速走红，单月营收突破10亿元，推动火山引擎MaaS业务目标上调至150亿元。该模型在短剧行业渗透...
2026年实时音视频如何重塑”一起冥想”体验：纯净人声、空间音效与AI引导的技术落地
“一起冥想”是一款多人在线同步冥想应用，基于ZEGO的低延迟音视频技术，提供清晰的人声、沉浸式音效和实时互动。用户可通过AI降噪和3D音效在虚拟空间中体验...