The New Stack ·

需要万亿参数的大型语言模型？谷歌云为您提供解决方案。

💡 原文英文，约500词，阅读约需2分钟。

📝

内容提要

谷歌云在KubeCon+CloudNativeCon北美大会上宣布，Google Kubernetes Engine（GKE）升级至支持最多65,000个节点，能够满足训练和运行万亿参数AI模型的需求，并可管理250,000个TPU，提升效率与可靠性，推动AI创新。

🎯

关键要点

谷歌云在KubeCon+CloudNativeCon北美大会上宣布，Google Kubernetes Engine（GKE）升级至支持最多65,000个节点。
此次升级旨在满足训练和运行万亿参数AI模型的需求。
GKE的单个集群现在可以管理多达250,000个TPU，提升了五倍的处理能力。
谷歌报告称，过去一年TPU和GPU在GKE上的使用量增长了900%。
谷歌云将GKE的基础设施从etcd迁移到Spanner，以实现几乎无限的扩展性和改善延迟。
此次升级提高了在Kubernetes上运行大规模AI工作负载的可靠性和效率，减少了系统故障带来的停机时间。

❓

延伸问答

谷歌云的GKE升级了什么功能？

谷歌云的GKE升级至支持最多65,000个节点，能够满足训练和运行万亿参数AI模型的需求。

GKE的单个集群现在可以管理多少个TPU？

GKE的单个集群现在可以管理多达250,000个TPU。

为什么谷歌云要升级GKE？

升级是为了满足全球对大型语言模型的需求，这些模型需要非常大的集群来高效运行。

GKE的基础设施从什么迁移到什么？

GKE的基础设施从etcd迁移到Spanner，以实现几乎无限的扩展性和改善延迟。

谷歌云在过去一年TPU和GPU的使用量增长了多少？

谷歌报告称，过去一年TPU和GPU在GKE上的使用量增长了900%。

GKE的升级对AI工作负载有什么影响？

升级提高了在Kubernetes上运行大规模AI工作负载的可靠性和效率，减少了系统故障带来的停机时间。

🏷️

继续阅读

早报｜微软发布Windows「梦中神机」/腾讯云DeepSeek-V4最高降价97.5%/徕卡相机或被中国资本收购
微软在Build 2026大会上发布了七款自研AI模型，涵盖推理、代码、图像和语音等领域，并推出了强大算力的开发者设备“梦中神机”。OpenAI扩展Cod...
“一次成功的攻击可能会造成灾难性后果”：Anthropic向更多团体开放Claude Mythos
Anthropic公司警告称，攻击其代码库可能影响超过1亿人。为此，他们扩展了“Project Glasswing”计划，新增约150个合作伙伴，包括亚马...
微软首款高级推理人工智能问世
微软在2026年Build大会上发布了多款新AI模型，旗舰模型MAI-Thinking-1是其自主开发的重要进展，表现优异，基于干净数据训练。此外，还推出...
微软Build 2026：关于Windows、AI、RTX Spark及更多的所有新闻
微软Build 2026开发者大会于6月2日在旧金山召开，重点介绍新的AI模型和Windows改进。微软推出了Surface Laptop Ultra和S...
Sutton 论 discovery
理查德·萨顿在演讲中探讨了生成式AI的局限性，指出其无法同时实现“新颖与优秀”。他强调，真正的创造力和发现需要评估和选择性保留，而生成式AI缺乏这种能力。...
微软推最强AI笔记本128G内存+英伟达显卡，看完这三点我冷静了
微软发布的Surface Laptop Ultra搭载128G统一内存和RTX 5070显卡，旨在与MacBook Pro竞争。尽管其硬件性能强大，支持本...