💡 原文英文,约1000词,阅读约需4分钟。
📝

内容提要

NVIDIA的AI平台在最新的MLPerf行业基准测试中提高了AI训练和高性能计算的标准。NVIDIA Eos超级计算机使用10,752个NVIDIA H100 Tensor Core GPU,在3.9分钟内完成了基于GPT-3模型的训练基准测试。这比六个月前的记录快了近3倍。此外,NVIDIA在其他AI工作负载中也创下了新记录,包括使用H100 GPU在推荐模型训练和RetinaNet计算视觉模型中的性能提升。NVIDIA的全栈平台创新在硬件加速器、系统和软件方面均有贡献。

🎯

关键要点

  • NVIDIA的AI平台在最新的MLPerf基准测试中提升了AI训练和高性能计算的标准。
  • NVIDIA Eos超级计算机使用10,752个H100 GPU在3.9分钟内完成基于GPT-3模型的训练基准测试,速度比六个月前的记录快近3倍。
  • Eos能够在八天内训练完整的GPT-3数据集,速度比之前的系统快73倍。
  • 训练时间的加速降低了成本,节省了能源,加快了上市时间。
  • 在新的生成AI测试中,1,024个Hopper架构GPU在2.5分钟内完成Stable Diffusion模型的训练基准测试。
  • 最新结果部分归功于使用了历史上最多的加速器,10,752个H100 GPU的应用大幅提升了性能。
  • NVIDIA的全栈平台创新在加速器、系统和软件方面均有贡献。
  • H100 GPU在推荐模型和计算视觉模型中的性能分别提升了1.6倍和1.8倍。
  • NVIDIA是唯一一家运行所有MLPerf测试的公司,H100 GPU在九个基准测试中表现最佳。
  • 在MLPerf HPC基准测试中,H100 GPU的性能是A100 GPU的两倍,显示出自2019年以来的16倍提升。
  • OpenFold模型的训练时间从128个加速器的11天缩短到7.5分钟,显著加快了药物发现过程。
  • MLPerf基准测试自2018年推出以来得到了广泛的行业和学术支持,测试结果透明客观,帮助用户做出明智的购买决策。
🏷️

标签

➡️

继续阅读