💡 原文英文,约900词,阅读约需4分钟。
📝

内容提要

微软和Oracle等云服务商正在大规模部署NVIDIA GB300 NVL72系统,以支持低延迟和长上下文的AI应用。NVIDIA Blackwell平台的广泛应用降低了每个token的成本,GB300 NVL72在低延迟和长上下文场景中表现优异,推动了AI编程助手的快速发展。

🎯

关键要点

  • 微软、CoreWeave和Oracle等云服务商正在大规模部署NVIDIA GB300 NVL72系统,以支持低延迟和长上下文的AI应用。
  • NVIDIA Blackwell平台被广泛采用,降低了每个token的成本,GB300 NVL72在低延迟和长上下文场景中表现优异。
  • AI代理和编程助手的需求激增,软件编程相关的AI查询从11%增长到约50%。
  • NVIDIA GB300 NVL72系统在每兆瓦的吞吐量上提高了50倍,成本降低了35倍。
  • NVIDIA的极端协同设计通过芯片、系统架构和软件创新,加速了AI工作负载的性能。
  • GB300 NVL72在低延迟工作负载中提供了超过10倍的每瓦token数量,成本显著降低。
  • NVIDIA TensorRT-LLM等团队的持续优化显著提升了Blackwell NVL72的吞吐量。
  • GB300 NVL72在长上下文场景中表现优越,成本比GB200 NVL72低1.5倍。
  • 领先的云服务商和AI创新者已经在生产中部署GB300 NVL72,以支持实时推理。
  • NVIDIA Rubin平台将带来下一代性能,MoE推理的吞吐量提高10倍,成本降低至每百万token的十分之一。
➡️

继续阅读