小红花·文摘

近期大规模语言模型的创新及其多种应用案例迅速推高了对数据中心 GPU 计算能力的需求。本文展示了在 LLM 集群中存在着显著的功率超额分配机会，超额分配能提高数据中心的功率效率，允许每个数据中心部署更多的服务器，并减少部署时间。通过使用开源模型复制生产中观察到的功耗模式，我们模拟了 POLCA，并证明我们可以在相同的 GPU 集群中推理部署更多的服务器，并且性能损失很小。