微软Azure推出全球首个NVIDIA GB300 NVL72超级计算集群,专为OpenAI设计

微软Azure推出全球首个NVIDIA GB300 NVL72超级计算集群,专为OpenAI设计

💡 原文英文,约700词,阅读约需3分钟。
📝

内容提要

微软Azure推出NDv6 GB300虚拟机系列,搭载NVIDIA GB300 NVL72系统,专为OpenAI的AI推理工作负载设计,集群拥有4600多块GPU,提升推理和训练能力,巩固美国在AI领域的领导地位。

🎯

关键要点

  • 微软Azure推出NDv6 GB300虚拟机系列,专为OpenAI的AI推理工作负载设计。
  • 该集群拥有4600多块NVIDIA Blackwell Ultra GPU,提升推理和训练能力。
  • 微软与NVIDIA的深度合作推动了AI基础设施的发展,巩固美国在AI领域的领导地位。
  • NDv6 GB300系统集成72个NVIDIA Blackwell Ultra GPU和36个NVIDIA Grace CPU,提供37TB内存和1.44 exaflops性能。
  • NVIDIA Blackwell Ultra平台在训练和推理方面表现优异,MLPerf Inference v5.1基准测试中表现出色。
  • 集群使用NVIDIA Quantum-X800 InfiniBand平台,确保4608个GPU之间的无缝通信。
  • 微软Azure的集群采用先进的自适应路由和性能隔离技术,提升大规模训练和推理的效率。
  • 这一里程碑标志着AI基础设施建设的重要进展,未来将推动更多创新。

延伸问答

微软Azure的NDv6 GB300虚拟机系列有什么特点?

NDv6 GB300虚拟机系列专为OpenAI的AI推理工作负载设计,集成4600多块NVIDIA Blackwell Ultra GPU,提供高效的推理和训练能力。

NVIDIA GB300 NVL72系统的性能如何?

NVIDIA GB300 NVL72系统每个虚拟机提供1.44 exaflops的FP4 Tensor Core性能和37TB内存,适合大规模AI模型的训练和推理。

微软与NVIDIA的合作对AI基础设施有什么影响?

微软与NVIDIA的深度合作推动了AI基础设施的发展,确保美国在AI领域的领导地位,并为OpenAI等客户提供了前所未有的基础设施规模和速度。

NVIDIA Blackwell Ultra平台在推理方面的表现如何?

NVIDIA Blackwell Ultra平台在MLPerf Inference v5.1基准测试中表现优异,提供了高达5倍的推理吞吐量。

微软Azure的集群如何确保GPU之间的通信?

集群使用NVIDIA Quantum-X800 InfiniBand平台,提供800 Gb/s的带宽,确保4608个GPU之间的无缝通信。

NDv6 GB300系统的设计对AI模型有什么帮助?

NDv6 GB300系统通过集成大量GPU和CPU,提供统一的内存空间,支持复杂的推理模型和生成式AI的高效训练。

➡️

继续阅读