POLCA:LLM 云服务供应商中的电力超额订购
原文中文,约600字,阅读约需2分钟。发表于: 。近期大规模语言模型的创新及其多种应用案例迅速推高了对数据中心 GPU 计算能力的需求。本文展示了在 LLM 集群中存在着显著的功率超额分配机会,超额分配能提高数据中心的功率效率,允许每个数据中心部署更多的服务器,并减少部署时间,因为建设新的数据中心是缓慢的。我们详细研究了各种 LLM 及其配置的功耗模式,并且区分了推理和训练的功耗模式。基于对这些 LLM...
近期大规模语言模型的创新及其多种应用案例迅速推高了对数据中心 GPU 计算能力的需求。本文展示了在 LLM 集群中存在着显著的功率超额分配机会,超额分配能提高数据中心的功率效率,允许每个数据中心部署更多的服务器,并减少部署时间。通过使用开源模型复制生产中观察到的功耗模式,我们模拟了 POLCA,并证明我们可以在相同的 GPU 集群中推理部署更多的服务器,并且性能损失很小。