KCD Beijing 2026 分享回顾:从 Device Plugin 到 DRA——GPU 调度范式升级与 HAMi-DRA 实践

KCD Beijing 2026 分享回顾:从 Device Plugin 到 DRA——GPU 调度范式升级与 HAMi-DRA 实践

💡 原文中文,约4000字,阅读约需10分钟。
📝

内容提要

KCD Beijing 2026 是大型 Kubernetes 社区大会,HAMi 社区介绍了 GPU 调度的 DRA 模型,强调 GPU 从“设备”转变为“资源对象”。DRA 提升了资源建模能力,但用户体验有所下降。HAMi-DRA 通过自动化迁移简化用户操作,提高了 Pod 创建速度和可观测性,推动了 AI 基础设施的发展。

🎯

关键要点

  • KCD Beijing 2026 是大型 Kubernetes 社区大会,吸引了超过 1000 人参与。
  • HAMi 社区介绍了 GPU 调度的 DRA 模型,强调 GPU 从'设备'转变为'资源对象'。
  • DRA 提升了资源建模能力,但用户体验有所下降。
  • DRA 允许多维资源建模,支持完整设备生命周期管理和细粒度资源分配。
  • DRA 的复杂性导致用户体验退化,迁移成本高。
  • HAMi-DRA 通过自动化迁移简化用户操作,提高 Pod 创建速度和可观测性。
  • DRA Driver 负责完整的设备生命周期管理,提升了 GPU 调度的复杂性。
  • HAMi-DRA 在性能上显著提升 Pod 创建速度,减少了调度冲突。
  • DRA 模型改善了可观测性,运维团队可以直接了解资源使用情况。
  • DRA 是异构算力抽象的起点,推动跨厂商资源管理的可能性。
  • Kubernetes 正在演进为 AI 基础设施的控制平面,HAMi 的定位愈加清晰。
  • HAMi-DRA 通过不改变用户习惯和内部消化复杂性来实现 DRA 的能力。

延伸问答

KCD Beijing 2026 大会的主要内容是什么?

KCD Beijing 2026 大会主要介绍了 GPU 调度的 DRA 模型,强调 GPU 从'设备'转变为'资源对象',并探讨了这一转变对 AI 基础设施的影响。

DRA 模型的主要优势是什么?

DRA 模型的主要优势包括多维资源建模能力、完整设备生命周期管理和细粒度资源分配。

HAMi-DRA 如何改善用户体验?

HAMi-DRA 通过自动化迁移简化用户操作,让用户继续使用 Device Plugin 的写法,系统自动转换为 DRA,降低了迁移成本。

DRA 模型对 GPU 调度的影响是什么?

DRA 模型使 GPU 调度从简单的资源分配转变为复杂的设备生命周期管理,提升了调度的灵活性和效率。

DRA 模型在性能上有哪些提升?

DRA 模型在性能上显著提升了 Pod 创建速度,减少了调度冲突,提升约 30% 以上。

Kubernetes 在 AI 基础设施中的角色是什么?

Kubernetes 正在演进为 AI 基础设施的控制平面,支持异构 GPU 和 AI workload 的调度与管理。

➡️

继续阅读