💡
原文中文,约4000字,阅读约需10分钟。
📝
内容提要
顺丰科技在深圳举办的HAMi社区Meetup上分享了其AI平台的演进,涵盖从Kubeflow到多云混合架构。陈俊超介绍了GPU资源管理的创新,包括GPU切分、混部和显存超分,显著提升资源利用率。同时,通过深度定制Device Plugin,顺丰简化了运维,构建了全链路监控闭环,为资源决策提供支持。
🎯
关键要点
- 顺丰科技的AI平台演进经历了从Kubeflow到多云混合架构的过程。
- 当前平台管理5个私有云K8s集群,并对接4家公有云,利用公有云资源补充私有云算力缺口。
- 通过深度定制Device Plugin,实现GPU型号级资源上报,简化运维,告别标签与污点的管理。
- HAMi的落地实践包括GPU切分、混部调度和显存超分,显著提升资源利用率。
- 全链路监控闭环通过Prometheus采集物理卡和虚拟卡的监控数据,为资源决策提供支持。
❓
延伸问答
顺丰科技的AI平台是如何演进的?
顺丰科技的AI平台经历了从Kubeflow到多云混合架构的演进,当前管理5个私有云K8s集群,并对接4家公有云。
HAMi在GPU资源管理中有哪些创新?
HAMi通过深度定制Device Plugin,实现GPU型号级资源上报,简化运维,告别标签与污点的管理。
顺丰科技如何提升GPU资源利用率?
顺丰科技通过GPU切分、混部调度和显存超分等技术,显著提升了资源利用率。
全链路监控闭环的作用是什么?
全链路监控闭环通过Prometheus采集监控数据,为资源决策提供支持,确保资源的有效管理。
顺丰科技的多云混合架构有什么优势?
多云混合架构允许顺丰科技利用公有云资源补充私有云算力缺口,灵活应对算力需求。
显存超分技术是如何实现的?
显存超分技术通过错峰调度,允许不同任务共享物理显存,从而提升资源利用率。
➡️