KCD Beijing 2026 分享回顾：从 Device Plugin 到 DRA——GPU 调度范式升级与 HAMi-DRA 实践

dotNET跨平台 ·

KCD Beijing 2026 分享回顾：从 Device Plugin 到 DRA——GPU 调度范式升级与 HAMi-DRA 实践

💡 原文中文，约4000字，阅读约需10分钟。

📝

内容提要

KCD Beijing 2026 是大型 Kubernetes 社区大会，HAMi 社区介绍了 GPU 调度的 DRA 模型，强调 GPU 从“设备”转变为“资源对象”。DRA 提升了资源建模能力，但用户体验有所下降。HAMi-DRA 通过自动化迁移简化用户操作，提高了 Pod 创建速度和可观测性，推动了 AI 基础设施的发展。

🎯

关键要点

KCD Beijing 2026 是大型 Kubernetes 社区大会，吸引了超过 1000 人参与。
HAMi 社区介绍了 GPU 调度的 DRA 模型，强调 GPU 从'设备'转变为'资源对象'。
DRA 提升了资源建模能力，但用户体验有所下降。
DRA 允许多维资源建模，支持完整设备生命周期管理和细粒度资源分配。
DRA 的复杂性导致用户体验退化，迁移成本高。
HAMi-DRA 通过自动化迁移简化用户操作，提高 Pod 创建速度和可观测性。
DRA Driver 负责完整的设备生命周期管理，提升了 GPU 调度的复杂性。
HAMi-DRA 在性能上显著提升 Pod 创建速度，减少了调度冲突。
DRA 模型改善了可观测性，运维团队可以直接了解资源使用情况。
DRA 是异构算力抽象的起点，推动跨厂商资源管理的可能性。
Kubernetes 正在演进为 AI 基础设施的控制平面，HAMi 的定位愈加清晰。
HAMi-DRA 通过不改变用户习惯和内部消化复杂性来实现 DRA 的能力。

❓

延伸问答

KCD Beijing 2026 大会的主要内容是什么？

KCD Beijing 2026 大会主要介绍了 GPU 调度的 DRA 模型，强调 GPU 从'设备'转变为'资源对象'，并探讨了这一转变对 AI 基础设施的影响。

DRA 模型的主要优势是什么？

DRA 模型的主要优势包括多维资源建模能力、完整设备生命周期管理和细粒度资源分配。

HAMi-DRA 如何改善用户体验？

HAMi-DRA 通过自动化迁移简化用户操作，让用户继续使用 Device Plugin 的写法，系统自动转换为 DRA，降低了迁移成本。

DRA 模型对 GPU 调度的影响是什么？

DRA 模型使 GPU 调度从简单的资源分配转变为复杂的设备生命周期管理，提升了调度的灵活性和效率。

DRA 模型在性能上有哪些提升？

DRA 模型在性能上显著提升了 Pod 创建速度，减少了调度冲突，提升约 30% 以上。

Kubernetes 在 AI 基础设施中的角色是什么？

Kubernetes 正在演进为 AI 基础设施的控制平面，支持异构 GPU 和 AI workload 的调度与管理。

🏷️

继续阅读

网易游戏如何在Kubernetes上实现30秒的LLM冷启动
在网易游戏，我们发现大语言模型（LLM）推理的关键在于数据传输速度。通过使用Fluid，我们将模型加载时间从42分钟缩短至3分钟，显著提高了推理效率。同时...
给 AI 流式回答装一台打字机：一次自适应节奏的工程实践
本文介绍了一个可交互的 React Hook playground，旨在优化 AI 流式对话中的打字机效果。通过剥离业务依赖，结合 SSE 模拟器和组件库...
大模型狂飙的尽头，这家国产 GPU 厂商要把算力放在客厅
摩尔线程推出了家庭AI中枢AICUBE，集成AI计算、图形渲染和存储功能，旨在将云端算力引入家庭。AICUBE支持本地模型运行，解决传统云服务的延迟和隐私...
在 Amazon EC2 GPU 实例上部署 NVIDIA NemoClaw — 以 Amazon Bedrock 作为推理后端的生产级参考架构
本文介绍了如何在Amazon EC2 GPU实例上部署NVIDIA NemoClaw，并结合NVIDIA LLM Router实现智能路由。通过混合架构，...
你的显卡能跑多少算子？用 55 个检查项，给 PyTorch GPU 环境做一次冒烟测试 - 曦远Code
在Windows上使用RX 6650 XT运行自编译的ROCm和PyTorch时，LLM推理加速不明显，GPU利用率低。通过Python脚本检查PyTor...
.NET 10 桌面 UI 框架的范式演进：Jalium.UI 与 MewUI 架构深度对比 - 张善友
随着.NET MAUI的推出，桌面应用开发经历了重构。Jalium.UI和MewUI是两种不同的框架，前者注重复杂性和高性能，适合大型应用；后者追求轻量化...