内容提要
超级计算机和数据中心运营商需要衡量单位能源的有用工作量来评估可持续计算进展。目前最广泛使用的衡量标准是功耗效率(PUE),但它无法衡量数据中心的有用输出。现代数据中心的度量标准应该关注能源的有用工作量。
关键要点
-
超级计算机和数据中心运营商缺乏衡量单位能源有用工作的标准,以评估可持续计算的进展。
-
数据中心需要升级的仪表板,以指导其实现更高能源效率的旅程,显示实际应用的进展。
-
能效的公式是:完成的工作除以使用的能源,应用于数据中心需要详细拆解。
-
目前最广泛使用的衡量标准是功耗效率(PUE),它比较设施消耗的总能量与计算基础设施使用的能量。
-
PUE在云计算兴起期间为数据中心提供了良好的服务,但在生成式AI时代已显不足。
-
PUE只测量数据中心的能耗,而不衡量其有用输出。
-
计算机行业在描述系统和处理器时通常使用功率(瓦特),但瓦特仅测量输入功率,而非实际使用的能量或效率。
-
现代数据中心的度量标准应关注能量,使用千瓦时或焦耳来衡量有用工作。
-
行业通常以抽象术语(如处理器指令或数学计算)来衡量工作,用户更关心系统的实际工作量。
-
数据中心可能依赖于MLPerf基准测试,超算中心使用其他工作衡量标准。
-
新的基准应衡量加速计算的进展,结合并行处理硬件、软件和方法。
-
例如,Perlmutter超级计算机在科学应用中展示了5倍的能效提升。
-
专家们也认为需要新的能效指标,PUE已经不再适用。
-
未来的目标是性能指标,按工作负载细分以提高成功的可能性。
-
数据中心运营商需要一套基准,测量当今最广泛使用的AI工作负载的能量影响。
-
需要一个公开的论坛来进行这项重要工作,以确保这些指标准确描述硬件在实际应用中的能量使用。
-
尽管PUE和Green500等指标推动了能效的巨大进步,但在生成式AI时代仍需进一步提升能效。