GPU利用率背后的性能真相
原文中文,约4000字,阅读约需10分钟。发表于: 。一般而言,机器学习团队理解GPU使用情况的常见度量标准是GPU利用率,通常通过在终端中运行nvidia-smi来查看。许多集成的可观测性工具也将GPU利用率作为其主要性能指标进行跟踪。然而,AI Infra团队Trainy在实操中发现,GPU利用率并不总是理解GPU性能的最佳指标。实际上,在不做任何计算的情况下读取/写入内存,就可达到100%的GPU利用率!本文作者Roanak Baviskar在...
机器学习团队通常使用GPU利用率来衡量性能,但这并不总是最佳指标。通过计算模型FLOPS利用率(MFU),可以更好地了解GPU性能。建议团队跟踪SM效率以获得更准确的性能指标。