实例演示如何使用CCE XGPU虚拟化
💡
原文中文,约8400字,阅读约需20分钟。
📝
内容提要
本文介绍了华为云CCE平台上的GPU虚拟化技术,包括GPU资源的利用、CCE平台上GPU虚拟化的优势以及如何使用xGPU能力。文章还提到了安装插件、创建负载任务调用xGPU资源的方法,并给出了具体的操作步骤和示例。此外,还介绍了xGPU模式下的显存隔离和显存算力均隔离的使用方法,以及单pod中多个容器的显存隔离。最后,文章提到了GPU监控相关指标和升级GPU驱动版本的方法。
🎯
关键要点
- 在互联网场景中,用户对GPU虚拟化有强烈需求,GPU是AI训练和推理任务的重要计算资源。
- GPU虚拟化可以提高资源利用率,减少资源浪费,增强服务质量和公平性。
- CCE平台的GPU虚拟化采用xGPU技术,支持动态划分GPU显存与算力,最多可虚拟化20个GPU设备。
- xGPU技术提供灵活的资源配置,支持显存和算力的严格隔离,兼容现有业务,无需重新编译。
- 用户在使用GPU资源时,需提前创建对应规格的GPU节点资源池以便管理和调度。
- 使用GPU需安装CCE插件,包括Volcano调度器和GPU插件,设置默认调度器为Volcano。
- xGPU模式下的显存隔离和显存算力均隔离的使用方法提供了具体的操作步骤和示例。
- 支持单pod中多个容器的显存隔离,确保每个容器都能独立使用显存资源。
- 监控GPU资源使用情况需要安装kube-prometheus-stack插件,并提供相关监控指标。
- Nvidia驱动程序定期更新,用户可通过CCE AI套件更新驱动版本,确保负载使用最新驱动。
➡️