nvidia-smi工具详解及使用示例
💡
原文中文,约6500字,阅读约需16分钟。
📝
内容提要
nvidia-smi是NVIDIA的GPU管理工具,主要用于监控GPU状态、进程和资源。其核心功能包括实时监控、进程管理和计算模式控制。常用命令有nvidia-smi -l和nvidia-smi -q,帮助用户优化GPU性能和排查问题。
🎯
关键要点
- nvidia-smi是NVIDIA官方提供的GPU管理工具,用于监控和管理GPU状态。
- 核心功能包括实时监控、进程管理、计算模式控制和ECC错误检测。
- 常用命令有nvidia-smi -l用于实时监控,nvidia-smi -q用于查询详细信息。
- nvidia-smi输出分为GPU状态总览和进程信息两部分,便于快速监控和排查问题。
- MIG(Multi-Instance GPU)允许将物理GPU分割成多个独立的GPU实例,实现资源隔离。
- 常用命令包括实时监控、查询详细信息和进程管理,支持灵活的GPU管理。
- 典型问题排查思路包括检查GPU利用率、显存不足和GPU温度过高的原因。
- 核心监控指标为GPU-Util、Memory-Usage、Temp和Power,帮助判断GPU性能瓶颈。
➡️