TAPAS:云平台中针对大型语言模型推理的热能和功耗感知调度
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出TAPAS框架,旨在优化云数据中心大型语言模型推理中的热管理和功耗控制,通过历史数据优化GPU虚拟机配置,提高系统效率,降低总拥有成本。
🎯
关键要点
- 本研究提出TAPAS框架,旨在优化云数据中心大型语言模型推理中的热管理和功耗控制。
- TAPAS框架利用历史温度和功耗数据,实现高效配置新GPU工作负载虚拟机。
- 该框架在冷却和功耗约束下显著减少了热和功耗限制事件。
- 研究结果表明,TAPAS框架提升了系统效率,降低了总拥有成本。
➡️