💡
原文英文,约800词,阅读约需3分钟。
📝
内容提要
在AI推理时代,训练更智能的模型至关重要。NVIDIA在MLPerf Training v5.1中表现卓越,所有七项测试均获胜,展示了其Blackwell Ultra架构的强大性能。通过使用NVFP4精度,NVIDIA显著提升了计算性能,Llama 3.1 405B的训练时间创下10分钟新纪录,推动AI智能快速发展。
🎯
关键要点
- 在AI推理时代,训练更智能的模型至关重要。
- NVIDIA在MLPerf Training v5.1中表现卓越,所有七项测试均获胜。
- NVIDIA Blackwell Ultra架构在训练性能上显著提升,Llama 3.1 405B的训练时间创下10分钟新纪录。
- NVIDIA是唯一在所有测试中提交结果的平台,展示了其GPU的丰富可编程性和CUDA软件栈的成熟性。
- GB300 NVL72系统基于Blackwell Ultra架构,提供超过4倍的Llama 3.1 405B预训练性能。
- NVFP4精度的使用是本轮出色结果的关键,NVIDIA在训练过程中采用了FP4精度。
- NVIDIA在本轮中以2560个Blackwell GPU实现了18.79分钟的训练时间,比上轮快45%。
- NVIDIA在新增的Llama 3.1 8B和FLUX.1基准测试中也创下了新纪录。
- NVIDIA生态系统参与广泛,15个组织提交了引人注目的结果。
- NVIDIA以一年为周期进行创新,推动预训练、后训练和推理的显著性能提升。
❓
延伸问答
NVIDIA在MLPerf Training v5.1中表现如何?
NVIDIA在MLPerf Training v5.1中表现卓越,所有七项测试均获胜。
NVIDIA Blackwell Ultra架构的优势是什么?
Blackwell Ultra架构提供超过4倍的Llama 3.1 405B预训练性能,并具备新Tensor Cores和NVFP4计算能力。
NVFP4精度在训练中有什么重要性?
NVFP4精度的使用显著提升了计算性能,使得NVIDIA能够在MLPerf Training中实现更高的训练效率。
NVIDIA在Llama 3.1 405B的训练时间上创下了什么纪录?
NVIDIA创下了Llama 3.1 405B的训练时间新纪录,仅需10分钟。
NVIDIA在新基准测试中有哪些表现?
NVIDIA在新增的Llama 3.1 8B和FLUX.1基准测试中也创下了新纪录。
NVIDIA的生态系统参与情况如何?
本轮测试中,NVIDIA生态系统有15个组织提交了引人注目的结果,显示出广泛的合作。
➡️