💡
原文英文,约500词,阅读约需2分钟。
📝
内容提要
谷歌云在KubeCon+CloudNativeCon北美大会上宣布,Google Kubernetes Engine(GKE)升级至支持最多65,000个节点,能够满足训练和运行万亿参数AI模型的需求,并可管理250,000个TPU,提升效率与可靠性,推动AI创新。
🎯
关键要点
-
谷歌云在KubeCon+CloudNativeCon北美大会上宣布,Google Kubernetes Engine(GKE)升级至支持最多65,000个节点。
-
此次升级旨在满足训练和运行万亿参数AI模型的需求。
-
GKE的单个集群现在可以管理多达250,000个TPU,提升了五倍的处理能力。
-
谷歌报告称,过去一年TPU和GPU在GKE上的使用量增长了900%。
-
谷歌云将GKE的基础设施从etcd迁移到Spanner,以实现几乎无限的扩展性和改善延迟。
-
此次升级提高了在Kubernetes上运行大规模AI工作负载的可靠性和效率,减少了系统故障带来的停机时间。
➡️