Cloud Native Computing Foundation ·

在Kubernetes中使用调度插件回收闲置的GPU资源

💡 原文英文，约1100词，阅读约需4分钟。

📝

内容提要

高端GPU成本高且常常闲置，Kubernetes调度未考虑实际利用率。为此，开发了ReclaimIdleResource插件，通过GPU利用率进行预占，优化资源管理。

🎯

🔎

Kubernetes的调度模型主要针对CPU，GPU的调度管理面临独特挑战。GPU资源的分配与实际利用率之间的差距，导致高昂的资源浪费。理解这一点有助于开发更有效的资源管理策略，尤其是在AI工作负载中。

ReclaimIdleResource插件通过实时监控GPU利用率，优化了资源调度。它在PostFilter阶段工作，能够根据实际利用情况进行抢占，提升了资源的使用效率。这种方法为Kubernetes用户提供了更灵活的资源管理选择。

插件的有效性依赖于调优和可观察性。参数设置需根据工作负载模式进行调整，以避免过于激进的抢占导致训练任务中断。同时，增加日志记录和事件监控，能够帮助运维人员理解抢占决策，提升系统透明度。

❓

Kubernetes的调度模型主要针对CPU，GPU的调度管理面临挑战，因为GPU是离散的、昂贵的资源，调度器未考虑实际利用率。

ReclaimIdleResource插件通过实时查询GPU利用率，优化资源管理，允许在低优先级Pod空闲时进行抢占。

Pod只有在其优先级低于抢占者的阈值、运行时间足够且实际GPU利用率低于配置阈值时，才有资格被抢占。

使用Prometheus查询GPU利用率可以获取历史数据，确保调度器重启后仍能访问利用率信息，适合GPU集群的监控需求。

调优和可观察性对插件的有效性至关重要，需根据工作负载模式调整参数，并提供日志以帮助操作员理解抢占决策。

冷却期防止快速重复的抢占尝试，确保在Pod未能调度后，等待一定时间再进行抢占，以避免抢占风暴。

🏷️