💡
原文英文,约900词,阅读约需4分钟。
📝
内容提要
微软和Oracle等云服务商正在大规模部署NVIDIA GB300 NVL72系统,以支持低延迟和长上下文的AI应用。NVIDIA Blackwell平台的广泛应用降低了每个token的成本,GB300 NVL72在低延迟和长上下文场景中表现优异,推动了AI编程助手的快速发展。
🎯
关键要点
- 微软、CoreWeave和Oracle等云服务商正在大规模部署NVIDIA GB300 NVL72系统,以支持低延迟和长上下文的AI应用。
- NVIDIA Blackwell平台被广泛采用,降低了每个token的成本,GB300 NVL72在低延迟和长上下文场景中表现优异。
- AI代理和编程助手的需求激增,软件编程相关的AI查询从11%增长到约50%。
- NVIDIA GB300 NVL72系统在每兆瓦的吞吐量上提高了50倍,成本降低了35倍。
- NVIDIA的极端协同设计通过芯片、系统架构和软件创新,加速了AI工作负载的性能。
- GB300 NVL72在低延迟工作负载中提供了超过10倍的每瓦token数量,成本显著降低。
- NVIDIA TensorRT-LLM等团队的持续优化显著提升了Blackwell NVL72的吞吐量。
- GB300 NVL72在长上下文场景中表现优越,成本比GB200 NVL72低1.5倍。
- 领先的云服务商和AI创新者已经在生产中部署GB300 NVL72,以支持实时推理。
- NVIDIA Rubin平台将带来下一代性能,MoE推理的吞吐量提高10倍,成本降低至每百万token的十分之一。
➡️