NVIDIA Blog ·

NVIDIA Blackwell Ultra在新的MLPerf推理基准测试中树立了标杆

💡 原文英文，约600词，阅读约需2分钟。

📝

内容提要

NVIDIA GB300 NVL72系统在推理基准测试中表现优异，提升了AI工厂的吞吐量并降低了总拥有成本。新架构Blackwell Ultra提供更强的计算能力和内存，优化大型语言模型推理，显著提升性能。

🎯

NVIDIA GB300 NVL72系统在推理基准测试中表现优异，提升了AI工厂的吞吐量。
推理性能直接影响AI工厂的经济效益，较高的吞吐量可提高收入并降低总拥有成本。
NVIDIA GB300 NVL72系统在MLPerf Inference v5.1中创造了新的推理基准记录，吞吐量比GB200 NVL72系统提高了1.4倍。
Blackwell Ultra架构提供1.5倍的NVFP4 AI计算能力和2倍的注意力层加速，支持高达288GB的HBM3e内存。
NVIDIA平台在MLPerf Inference v5.1的所有新数据中心基准测试中均创下性能记录。
全栈协同设计在最新基准结果中发挥了重要作用，NVFP4数据格式提供更好的准确性。
NVIDIA TensorRT模型优化软件将多个模型量化为NVFP4，以提高性能并满足严格的准确性要求。
大语言模型推理包括处理用户输入和生成输出的两个工作负载，采用分离服务技术优化整体吞吐量。
NVIDIA首次使用Dynamo推理框架进行提交，合作伙伴在使用Blackwell和Hopper平台时取得了优异成绩。
NVIDIA AI平台的市场领先推理性能可通过主要云服务提供商和服务器制造商获得，降低了总拥有成本并提高了投资回报率。

🔎

推理性能直接影响AI工厂的经济效益。更高的吞吐量不仅能提高收入，还能降低总拥有成本（TCO）。因此，企业在选择AI基础设施时，应关注其推理性能，以确保投资回报最大化。

NVIDIA的Blackwell Ultra架构在推理基准测试中表现出色，提供了1.5倍的AI计算能力和2倍的注意力层加速。这使得处理大型语言模型时，系统能够更高效地运行，适应不断增长的AI应用需求。

全栈协同设计在NVIDIA的最新基准结果中发挥了关键作用。通过优化NVFP4数据格式，NVIDIA能够在保持高性能的同时，确保模型的准确性。这种设计理念为AI系统的未来发展提供了新的思路。

❓

NVIDIA GB300 NVL72系统在MLPerf Inference v5.1中创造了新的推理基准记录，吞吐量比GB200 NVL72系统提高了1.4倍。

Blackwell Ultra架构提供1.5倍的NVFP4 AI计算能力和2倍的注意力层加速，支持高达288GB的HBM3e内存。

推理性能直接影响AI工厂的经济效益，较高的吞吐量可提高收入并降低总拥有成本。

NVIDIA使用TensorRT模型优化软件将多个模型量化为NVFP4，以提高性能并满足严格的准确性要求。

分离服务技术将上下文处理和生成任务分开，以便独立优化每个部分，从而提高整体吞吐量。

NVIDIA AI平台的市场领先推理性能可通过主要云服务提供商和服务器制造商获得，降低了总拥有成本并提高了投资回报率。

🏷️