KCD Beijing 2026 分享回顾:从 Device Plugin 到 DRA——GPU 调度范式升级与 HAMi-DRA 实践

KCD Beijing 2026 分享回顾:从 Device Plugin 到 DRA——GPU 调度范式升级与 HAMi-DRA 实践

💡 原文中文,约4000字,阅读约需10分钟。
📝

内容提要

KCD Beijing 2026 是大型 Kubernetes 社区大会,HAMi 社区介绍了 GPU 调度的 DRA 模型,强调 GPU 从“设备”转变为“资源对象”。DRA 提升了资源建模能力,但用户体验有所下降。HAMi-DRA 通过自动化迁移简化用户操作,提高了 Pod 创建速度和可观测性,推动了 AI 基础设施的发展。

🎯

关键要点

  • KCD Beijing 2026 是大型 Kubernetes 社区大会,吸引了超过 1000 人参与。

  • HAMi 社区介绍了 GPU 调度的 DRA 模型,强调 GPU 从'设备'转变为'资源对象'。

  • DRA 提升了资源建模能力,但用户体验有所下降。

  • DRA 允许多维资源建模,支持完整设备生命周期管理和细粒度资源分配。

  • DRA 的复杂性导致用户体验退化,迁移成本高。

  • HAMi-DRA 通过自动化迁移简化用户操作,提高 Pod 创建速度和可观测性。

  • DRA Driver 负责完整的设备生命周期管理,提升了 GPU 调度的复杂性。

  • HAMi-DRA 在性能上显著提升 Pod 创建速度,减少了调度冲突。

  • DRA 模型改善了可观测性,运维团队可以直接了解资源使用情况。

  • DRA 是异构算力抽象的起点,推动跨厂商资源管理的可能性。

  • Kubernetes 正在演进为 AI 基础设施的控制平面,HAMi 的定位愈加清晰。

  • HAMi-DRA 通过不改变用户习惯和内部消化复杂性来实现 DRA 的能力。

延伸问答

KCD Beijing 2026 大会的主要内容是什么?

KCD Beijing 2026 大会主要介绍了 GPU 调度的 DRA 模型,强调 GPU 从'设备'转变为'资源对象',并探讨了这一转变对 AI 基础设施的影响。

DRA 模型如何提升 GPU 资源的管理能力?

DRA 模型通过多维资源建模、完整设备生命周期管理和细粒度资源分配,提升了 GPU 资源的管理能力。

HAMi-DRA 是如何简化用户操作的?

HAMi-DRA 通过自动化迁移,允许用户继续使用 Device Plugin 的写法,系统会自动转换为 DRA,简化了用户操作。

DRA 模型对用户体验有什么影响?

尽管 DRA 模型提升了资源建模能力,但由于其复杂性,用户体验明显退化,迁移成本较高。

HAMi-DRA 在性能上有哪些提升?

HAMi-DRA 显著提升了 Pod 创建速度,减少了调度冲突,提升约 30% 的性能,直接影响任务启动延迟和集群吞吐量。

Kubernetes 在 AI 基础设施中的角色是什么?

Kubernetes 正在演进为 AI 基础设施的控制平面,推动从调度'机器'到调度'资源对象'的转变。

➡️

继续阅读