实例演示如何使用CCE XGPU虚拟化
💡
原文中文,约8400字,阅读约需20分钟。
📝
内容提要
本文介绍了华为云CCE平台上的GPU虚拟化技术,包括GPU资源的利用、CCE平台上GPU虚拟化的优势以及如何使用xGPU能力。文章还提到了安装插件、创建负载任务调用xGPU资源的方法,并给出了具体的操作步骤和示例。此外,还介绍了xGPU模式下的显存隔离和显存算力均隔离的使用方法,以及单pod中多个容器的显存隔离。最后,文章提到了GPU监控相关指标和升级GPU驱动版本的方法。
🎯
关键要点
- 在互联网场景中,用户对GPU虚拟化有强烈需求,GPU是AI训练和推理任务的重要计算资源。
- GPU虚拟化可以提高资源利用率,减少资源浪费,增强服务质量和公平性。
- CCE平台的GPU虚拟化采用xGPU技术,支持动态划分GPU显存与算力,最多可虚拟化20个GPU设备。
- xGPU技术提供灵活的资源配置,支持显存和算力的严格隔离,兼容现有业务,无需重新编译。
- 用户在使用GPU资源时,需提前创建对应规格的GPU节点资源池以便管理和调度。
- 使用GPU需安装CCE插件,包括Volcano调度器和GPU插件,设置默认调度器为Volcano。
- xGPU模式下的显存隔离和显存算力均隔离的使用方法提供了具体的操作步骤和示例。
- 支持单pod中多个容器的显存隔离,确保每个容器都能独立使用显存资源。
- 监控GPU资源使用情况需要安装kube-prometheus-stack插件,并提供相关监控指标。
- Nvidia驱动程序定期更新,用户可通过CCE AI套件更新驱动版本,确保负载使用最新驱动。
❓
延伸问答
什么是CCE平台上的GPU虚拟化技术?
CCE平台上的GPU虚拟化技术是华为云自主研发的xGPU技术,能够动态划分GPU显存与算力,最多可虚拟化20个GPU设备。
使用xGPU技术有什么优势?
xGPU技术可以提高资源利用率,减少资源浪费,增强服务质量和公平性,同时支持显存和算力的严格隔离。
如何在CCE平台上安装GPU插件?
用户需前往CCE插件市场安装Volcano调度器和GPU插件,并设置默认调度器为Volcano。
如何创建负载任务以调用xGPU资源?
用户需根据xGPU支持的虚拟化维度创建负载任务,并在yaml文件中指定调度器为Volcano。
xGPU模式下如何实现显存隔离?
在xGPU模式下,用户可以通过在负载yaml中设置显存限制来实现显存隔离,确保每个容器独立使用显存资源。
如何监控GPU资源的使用情况?
监控GPU资源使用情况需要安装kube-prometheus-stack插件,并查看相关监控指标,如xgpu_memory_total和xgpu_memory_used。
➡️