华为云官方博客 ·

实例演示如何使用CCE XGPU虚拟化

💡 原文中文，约8400字，阅读约需20分钟。

📝

内容提要

本文介绍了华为云CCE平台上的GPU虚拟化技术，包括GPU资源的利用、CCE平台上GPU虚拟化的优势以及如何使用xGPU能力。文章还提到了安装插件、创建负载任务调用xGPU资源的方法，并给出了具体的操作步骤和示例。此外，还介绍了xGPU模式下的显存隔离和显存算力均隔离的使用方法，以及单pod中多个容器的显存隔离。最后，文章提到了GPU监控相关指标和升级GPU驱动版本的方法。

🎯

关键要点

在互联网场景中，用户对GPU虚拟化有强烈需求，GPU是AI训练和推理任务的重要计算资源。
GPU虚拟化可以提高资源利用率，减少资源浪费，增强服务质量和公平性。
CCE平台的GPU虚拟化采用xGPU技术，支持动态划分GPU显存与算力，最多可虚拟化20个GPU设备。
xGPU技术提供灵活的资源配置，支持显存和算力的严格隔离，兼容现有业务，无需重新编译。
用户在使用GPU资源时，需提前创建对应规格的GPU节点资源池以便管理和调度。
使用GPU需安装CCE插件，包括Volcano调度器和GPU插件，设置默认调度器为Volcano。
xGPU模式下的显存隔离和显存算力均隔离的使用方法提供了具体的操作步骤和示例。
支持单pod中多个容器的显存隔离，确保每个容器都能独立使用显存资源。
监控GPU资源使用情况需要安装kube-prometheus-stack插件，并提供相关监控指标。
Nvidia驱动程序定期更新，用户可通过CCE AI套件更新驱动版本，确保负载使用最新驱动。

❓

延伸问答

什么是CCE平台上的GPU虚拟化技术？

CCE平台上的GPU虚拟化技术是华为云自主研发的xGPU技术，能够动态划分GPU显存与算力，最多可虚拟化20个GPU设备。

使用xGPU技术有什么优势？

xGPU技术可以提高资源利用率，减少资源浪费，增强服务质量和公平性，同时支持显存和算力的严格隔离。

如何在CCE平台上安装GPU插件？

用户需前往CCE插件市场安装Volcano调度器和GPU插件，并设置默认调度器为Volcano。

如何创建负载任务以调用xGPU资源？

用户需根据xGPU支持的虚拟化维度创建负载任务，并在yaml文件中指定调度器为Volcano。

xGPU模式下如何实现显存隔离？

在xGPU模式下，用户可以通过在负载yaml中设置显存限制来实现显存隔离，确保每个容器独立使用显存资源。

如何监控GPU资源的使用情况？

监控GPU资源使用情况需要安装kube-prometheus-stack插件，并查看相关监控指标，如xgpu_memory_total和xgpu_memory_used。

🏷️

继续阅读

史上最强游戏掌机来了！性能堪比 PS5，但……
今年掌机市场因元器件成本上涨而涨价，但英特尔等公司推出的新芯片提升了掌机性能和能效。微星和宏碁的新款掌机搭载英特尔 Arc G3 处理器，表现出色，续航能...
国星宇航与腾讯云签署“星算”计划战略合作协议，携手领航AI云服务新生态
成都国星宇航与腾讯云签署战略合作协议，聚焦“星算”AI云服务，推动技术共创与生态建设，深化云服务与AI技术融合，助力数字经济发展。
Winxvideo AI 二十周年限免：视频压缩、本地AI提升画质、防抖
Winxvideo AI 正在进行二十周年限免活动，用户只需提供邮箱即可获取注册码。该软件集视频增强、图片修复、格式转换等功能于一体，支持超分辨率提升、帧...
WPS笔记正式发布：AI贯穿记录、整理与复用全过程
金山办公于6月5日发布了AI笔记产品WPS笔记，旨在提升个人知识管理。该产品支持语音、图片和文字等多种信息录入方式，强调信息的主动理解与复用。通过多级AI...
基于 Amazon ECS Fargate 和 Graviton 构建企业级多租户 AI Agent 平台：OpenClaw + Hermes 双 Agent 实践
本文介绍了基于Amazon ECS Fargate和Graviton构建的企业级多租户AI Agent平台，结合OpenClaw和Hermes两个开源Ag...
第28期大数据师资培训班报名主页（Hadoop+Spark+实战案例班，暑假，泉州，2026年8月6日-13日）
第28期大数据师资培训班将于2026年8月在泉州举行，旨在提升中国高校大数据课程的教学水平。培训内容包括课程知识体系、授课方法和实验环境搭建，帮助教师建立...