在 Kubernetes 集群中采集 AI 相关指标
原文中文,约18300字,阅读约需44分钟。发表于: 。1. dcgm-exporter dcgm-exporter 是 NVIDIA 官方社区提供的 GPU 监控工具。 项目地址 https://github.com/NVIDIA/dcgm-exporter 1.1 安装方式 添加 Helm 镜像仓库 1 helm repo add gpu-helm-charts...
本文介绍了几个监控不同资源的工具和指标,包括dcgm-exporter、npu-exporter、node-exporter、node-problem-detector、process-exporter、nvidia-gpu-exporter、juicefs-exporter和kube-state-metrics。