nvidia-smi工具详解及使用示例

💡 原文中文,约6500字,阅读约需16分钟。
📝

内容提要

nvidia-smi是NVIDIA的GPU管理工具,主要用于监控GPU状态、进程和资源。其核心功能包括实时监控、进程管理和计算模式控制。常用命令有nvidia-smi -l和nvidia-smi -q,帮助用户优化GPU性能和排查问题。

🎯

关键要点

  • nvidia-smi是NVIDIA官方提供的GPU管理工具,用于监控和管理GPU状态。

  • 核心功能包括实时监控、进程管理、计算模式控制和ECC错误检测。

  • 常用命令有nvidia-smi -l用于实时监控,nvidia-smi -q用于查询详细信息。

  • nvidia-smi输出分为GPU状态总览和进程信息两部分,便于快速监控和排查问题。

  • MIG(Multi-Instance GPU)允许将物理GPU分割成多个独立的GPU实例,实现资源隔离。

  • 常用命令包括实时监控、查询详细信息和进程管理,支持灵活的GPU管理。

  • 典型问题排查思路包括检查GPU利用率、显存不足和GPU温度过高的原因。

  • 核心监控指标为GPU-Util、Memory-Usage、Temp和Power,帮助判断GPU性能瓶颈。

延伸问答

nvidia-smi工具的主要功能是什么?

nvidia-smi工具主要用于监控GPU状态、进程管理、计算模式控制和ECC错误检测。

如何使用nvidia-smi进行实时监控?

可以使用命令nvidia-smi -l 2每2秒自动刷新状态,或使用watch -n 1 nvidia-smi实现更灵活的实时监控。

nvidia-smi的输出信息包含哪些部分?

nvidia-smi的输出分为GPU状态总览和进程信息两部分,分别显示GPU的核心实时指标和使用GPU资源的进程详细信息。

MIG功能在nvidia-smi中有什么作用?

MIG(Multi-Instance GPU)允许将物理GPU分割成多个独立的GPU实例,实现资源隔离和更精细的资源利用。

如何排查GPU性能问题?

可以检查GPU利用率、显存使用情况和温度,使用nvidia-smi命令观察相关指标,确认是否存在瓶颈。

nvidia-smi中如何查看占用GPU的进程?

可以使用命令nvidia-smi -q -d PROCESSES查看占用GPU的具体进程、PID及其显存使用量。

➡️

继续阅读