DCGM(数据中心GPU管理器)是NVIDIA提供的工具,具备GPU监控、配置管理和健康诊断功能。安装时需配置驱动和源,通过命令行进行设备管理、性能监控和故障诊断。支持分组管理和策略设置,以自动处理异常。
Introduction NVIDIA Data Center GPU Manager (DCGM) is a suite of tools for managing and monitoring NVIDIA datacenter GPUs in cluster environments. It also provides APIs to let developers integrate...
完成下面两步后,将自动完成登录并继续当前操作。