nvidia-smi 基本命令及说明

💡 原文中文,约8600字,阅读约需21分钟。
📝

内容提要

NVIDIA System Management Interface (nvidia-smi)是由NVIDIA提供的用于管理和监控GPU的工具。它可以查询和修改各种GPU参数,如ECC错误计数、GPU利用率、时钟速度、温度、功耗管理等。文章提供了nvidia-smi的常用命令示例,如刷新状态、检查GPU型号、查询GPU状态详细信息和查看GPU时钟频率。还提到了常见的配置命令,如启用持久模式、启用ECC模式和设置计算模式。文章最后还提供了处理在容器中运行nvidia-smi时出现的错误的故障排除部分。

🎯

关键要点

  • nvidia-smi 是 NVIDIA 提供的管理和监控 GPU 的工具。

  • nvidia-smi 调用 NVML,提供 GPU 监控和管理的 C API。

  • 可查询的状态包括 ECC 错误计数、GPU 利用率、时钟和 PState、温度和风扇速度等。

  • 可修改的状态包括 ECC 模式、计算模式和持久模式。

  • nvidia-smi 的主面板字段包括驱动版本、CUDA 版本、GPU 名称、功耗等信息。

  • 常用命令包括定时刷新状态、查看显卡型号、查询 GPU 状态详情等。

  • nvidia-smi 支持以 XML 格式输出查询信息。

  • 常用子命令包括查看 NVLink 网络状态和连接拓扑。

  • 可以通过配置命令开启持久模式和 ECC 模式,设置计算模式。

  • 常见异常处理包括容器中执行 nvidia-smi 报错及其解决方式。

🏷️

标签

➡️

继续阅读