让 GPU 像水电一样用:HAMi 驱动顺丰科技算力池化实战

让 GPU 像水电一样用:HAMi 驱动顺丰科技算力池化实战

💡 原文中文,约4000字,阅读约需10分钟。
📝

内容提要

顺丰科技在深圳举办的HAMi社区Meetup上分享了其AI平台的演进,涵盖从Kubeflow到多云混合架构。陈俊超介绍了GPU资源管理的创新,包括GPU切分、混部和显存超分,显著提升资源利用率。同时,通过深度定制Device Plugin,顺丰简化了运维,构建了全链路监控闭环,为资源决策提供支持。

🎯

关键要点

  • 顺丰科技的AI平台演进经历了从Kubeflow到多云混合架构的过程。
  • 当前平台管理5个私有云K8s集群,并对接4家公有云,利用公有云资源补充私有云算力缺口。
  • 通过深度定制Device Plugin,实现GPU型号级资源上报,简化运维,告别标签与污点的管理。
  • HAMi的落地实践包括GPU切分、混部调度和显存超分,显著提升资源利用率。
  • 全链路监控闭环通过Prometheus采集物理卡和虚拟卡的监控数据,为资源决策提供支持。

延伸问答

顺丰科技的AI平台是如何演进的?

顺丰科技的AI平台经历了从Kubeflow到多云混合架构的演进,当前管理5个私有云K8s集群,并对接4家公有云。

HAMi在GPU资源管理中有哪些创新?

HAMi通过深度定制Device Plugin,实现GPU型号级资源上报,简化运维,告别标签与污点的管理。

顺丰科技如何提升GPU资源利用率?

顺丰科技通过GPU切分、混部调度和显存超分等技术,显著提升了资源利用率。

全链路监控闭环的作用是什么?

全链路监控闭环通过Prometheus采集监控数据,为资源决策提供支持,确保资源的有效管理。

顺丰科技的多云混合架构有什么优势?

多云混合架构允许顺丰科技利用公有云资源补充私有云算力缺口,灵活应对算力需求。

显存超分技术是如何实现的?

显存超分技术通过错峰调度,允许不同任务共享物理显存,从而提升资源利用率。

➡️

继续阅读