KEDA 通过自定义 DaemonSet 解决 Kubernetes 中 GPU 工作负载的自动扩展问题。它利用 NVIDIA 管理库 (NVML) 收集 GPU 指标,如利用率、内存和功耗,并通过 gRPC 提供给 KEDA 操作员,从而实现基于 GPU 性能的自动扩展。这种方法提高了资源利用率,降低了能耗,适用于多种 GPU 工作负载。
NVIDIA的nvml库可监控GPU的功率、温度和利用率等统计信息。通过自定义C++应用程序,可以实现类似nvidia-smi dmon的功能,获取详细的GPU性能指标。
完成下面两步后,将自动完成登录并继续当前操作。