nvidia-smi 基本命令及说明
原文中文,约8600字,阅读约需21分钟。
📝
内容提要
NVIDIA System Management Interface (nvidia-smi)是由NVIDIA提供的用于管理和监控GPU的工具。它可以查询和修改各种GPU参数,如ECC错误计数、GPU利用率、时钟速度、温度、功耗管理等。文章提供了nvidia-smi的常用命令示例,如刷新状态、检查GPU型号、查询GPU状态详细信息和查看GPU时钟频率。还提到了常见的配置命令,如启用持久模式、启用ECC模式和设置计算模式。文章最后还提供了处理在容器中运行nvidia-smi时出现的错误的故障排除部分。
🎯
关键要点
-
nvidia-smi 是 NVIDIA 提供的管理和监控 GPU 的工具。
-
nvidia-smi 调用 NVML,提供 GPU 监控和管理的 C API。
-
可查询的状态包括 ECC 错误计数、GPU 利用率、时钟和 PState、温度和风扇速度等。
-
可修改的状态包括 ECC 模式、计算模式和持久模式。
-
nvidia-smi 的主面板字段包括驱动版本、CUDA 版本、GPU 名称、功耗等信息。
-
常用命令包括定时刷新状态、查看显卡型号、查询 GPU 状态详情等。
-
nvidia-smi 支持以 XML 格式输出查询信息。
-
常用子命令包括查看 NVLink 网络状态和连接拓扑。
-
可以通过配置命令开启持久模式和 ECC 模式,设置计算模式。
-
常见异常处理包括容器中执行 nvidia-smi 报错及其解决方式。
🏷️