Kubernetes GPU 虚拟化实战:HAMi DRA 模式完整指南

Kubernetes GPU 虚拟化实战:HAMi DRA 模式完整指南

💡 原文中文,约12400字,阅读约需30分钟。
📝

内容提要

本文介绍了Kubernetes上HAMi DRA模式的安装与使用。HAMi是一个开源GPU虚拟化平台,能够将物理GPU细分为多个虚拟GPU供不同Pod共享。DRA模式通过调度器动态分配资源,解决资源不足的问题。用户可选择手动创建ResourceClaim的原生模式或使用兼容模式自动转换资源申请,简化迁移过程。文章详细描述了安装步骤、验证方法及两种模式的区别。

🎯

关键要点

  • HAMi是一个开源GPU虚拟化平台,能够将物理GPU细分为多个虚拟GPU供不同Pod共享。

  • DRA模式通过调度器动态分配资源,解决资源不足的问题。

  • 用户可以选择手动创建ResourceClaim的原生模式或使用兼容模式自动转换资源申请,简化迁移过程。

  • 安装HAMi DRA模式需要K8s 1.34及以上版本,并开启DRAConsumableCapacity Feature Gate。

  • DRA原生模式需要手动创建ResourceClaim,而兼容模式允许用户像DevicePlugin一样申请资源,HAMi DRA Webhook会自动转换为ResourceClaim。

  • 两种模式的核心差异在于ResourceClaim的创建方式:原生模式手动管理,兼容模式自动生成。

🔎

延伸解读

HAMi DRA模式的优势

HAMi DRA模式通过动态资源分配,显著提高了GPU资源的利用率。与传统的DevicePlugin相比,DRA模式在Pod调度阶段就能精确匹配设备属性,避免了资源不足的问题。这对于需要高效计算资源的AI和机器学习任务尤为重要。

原生模式与兼容模式的选择

用户在选择HAMi的原生模式和兼容模式时,应考虑现有工作负载的迁移成本。原生模式需要手动创建ResourceClaim,适合新项目;而兼容模式则允许用户继续使用传统的资源申请方式,适合已有系统的平滑过渡。

安装与配置注意事项

在安装HAMi DRA模式时,确保Kubernetes版本为1.34及以上,并开启DRAConsumableCapacity Feature Gate。特别是在1.34和1.35版本中,DRAConsumableCapacity默认未开启,需要手动配置,这一点在部署前需特别注意。

延伸问答

HAMi DRA模式的主要功能是什么?

HAMi DRA模式能够将物理GPU细分为多个虚拟GPU供不同Pod共享,并通过调度器动态分配资源,解决资源不足的问题。

如何安装HAMi DRA模式?

安装HAMi DRA模式需要K8s 1.34及以上版本,并开启DRAConsumableCapacity Feature Gate,使用Helm进行安装。

DRA模式的原生模式和兼容模式有什么区别?

原生模式需要手动创建ResourceClaim,而兼容模式允许用户像DevicePlugin一样申请资源,HAMi DRA Webhook会自动转换为ResourceClaim。

使用HAMi DRA模式时,如何验证GPU切分是否生效?

可以通过在Pod中执行nvidia-smi命令查看显存使用情况,确认是否与申请的资源一致。

DRA模式的动态资源分配是如何工作的?

DRA模式通过调度器在Pod调度阶段精确匹配设备属性,避免了在节点上调度后才发现资源不足的问题。

HAMi DRA模式的安装前提条件是什么?

安装HAMi DRA模式需要K8s 1.34及以上版本,并且必须开启DRAConsumableCapacity Feature Gate。

🏷️

标签

➡️

继续阅读