POLCA:LLM 云服务供应商中的电力超额订购
💡
原文中文,约600字,阅读约需2分钟。
📝
内容提要
近期大规模语言模型的创新及其多种应用案例迅速推高了对数据中心 GPU 计算能力的需求。本文展示了在 LLM 集群中存在着显著的功率超额分配机会,超额分配能提高数据中心的功率效率,允许每个数据中心部署更多的服务器,并减少部署时间。通过使用开源模型复制生产中观察到的功耗模式,我们模拟了 POLCA,并证明我们可以在相同的 GPU 集群中推理部署更多的服务器,并且性能损失很小。
🎯
关键要点
- 近期大规模语言模型的创新推高了对数据中心 GPU 计算能力的需求。
- 在 LLM 集群中存在显著的功率超额分配机会,能提高数据中心的功率效率。
- 超额分配允许每个数据中心部署更多服务器,并减少部署时间。
- 研究了各种 LLM 及其配置的功耗模式,区分了推理和训练的功耗模式。
- 推理中的平均和峰值功率利用率不应过高。
- 推理工作负载在功率超额分配方面提供了很大的潜力。
- GPU 在虚拟化环境中提供的遥测和控制机制使得功率超额分配机制具有挑战性。
- 提出了功率超额分配框架 POLCA,稳健、可靠且方便部署。
- 通过模拟 POLCA,证明可以在相同的 GPU 集群中推理部署更多服务器,且性能损失很小。
➡️