Kubernetes GPU 虚拟化实战:HAMi DRA 模式完整指南

Kubernetes GPU 虚拟化实战:HAMi DRA 模式完整指南

💡 原文中文,约12400字,阅读约需30分钟。
📝

内容提要

本文介绍了Kubernetes上HAMi DRA模式的安装与使用。HAMi是一个开源GPU虚拟化平台,能够将物理GPU细分为多个虚拟GPU供不同Pod共享。DRA模式通过调度器动态分配资源,解决资源不足的问题。用户可选择手动创建ResourceClaim的原生模式或使用兼容模式自动转换资源申请,简化迁移过程。文章详细描述了安装步骤、验证方法及两种模式的区别。

🎯

关键要点

  • HAMi是一个开源GPU虚拟化平台,能够将物理GPU细分为多个虚拟GPU供不同Pod共享。
  • DRA模式通过调度器动态分配资源,解决资源不足的问题。
  • 用户可以选择手动创建ResourceClaim的原生模式或使用兼容模式自动转换资源申请,简化迁移过程。
  • 安装HAMi DRA模式需要K8s 1.34及以上版本,并开启DRAConsumableCapacity Feature Gate。
  • DRA原生模式需要手动创建ResourceClaim,而兼容模式允许用户像DevicePlugin一样申请资源,HAMi DRA Webhook会自动转换为ResourceClaim。
  • 两种模式的核心差异在于ResourceClaim的创建方式:原生模式手动管理,兼容模式自动生成。

延伸问答

HAMi DRA模式的主要功能是什么?

HAMi DRA模式能够将物理GPU细分为多个虚拟GPU供不同Pod共享,并通过调度器动态分配资源,解决资源不足的问题。

如何安装HAMi DRA模式?

安装HAMi DRA模式需要K8s 1.34及以上版本,并开启DRAConsumableCapacity Feature Gate,使用Helm进行安装。

DRA模式的原生模式和兼容模式有什么区别?

原生模式需要手动创建ResourceClaim,而兼容模式允许用户像DevicePlugin一样申请资源,HAMi DRA Webhook会自动转换为ResourceClaim。

使用HAMi DRA模式时,如何验证GPU切分是否生效?

可以通过在Pod中执行nvidia-smi命令查看显存使用情况,确认是否与申请的资源一致。

DRA模式的动态资源分配是如何工作的?

DRA模式通过调度器在Pod调度阶段精确匹配设备属性,避免了在节点上调度后才发现资源不足的问题。

HAMi DRA模式的安装前提条件是什么?

安装HAMi DRA模式需要K8s 1.34及以上版本,并且必须开启DRAConsumableCapacity Feature Gate。

➡️

继续阅读