常用 GPU 运维及故障处理
内容提要
本文讨论了NVIDIA GPU的常见错误代码(XID)及其含义,包括图形引擎异常、GPU内存页错误和驱动固件错误。还提到GPU温度过高的问题及其解决方案,如终止高温应用程序。此外,介绍了在Pod中执行nvidia-smi命令时可能出现的错误及其解决方法。
关键要点
-
XID 是 NVIDIA 的错误码,可以通过命令 dmesg -T | grep -i 'NVRM: Xid' 定位故障。
-
常见的 XID 错误包括:图形引擎异常(XID 13)、GPU 内存页错误(XID 31)、驱动固件错误(XID 38)等。
-
GPU 温度应保持在 85°C 以下,超过该温度会导致性能下降,可以通过 nvidia-smi 命令查看温度。
-
解决 GPU 过热的方法包括终止高温应用程序,将其迁移到其他 GPU 上。
-
在 Pod 中执行 nvidia-smi 命令时可能出现 'Function not Found' 错误,通常是由于 CUDA 版本不匹配导致的。
-
解决 Pod 中的 nvidia-smi 错误的方法是设置环境变量并重启应用。
延伸问答
XID错误码是什么?
XID是NVIDIA的错误码,用于定位GPU故障。
常见的XID错误有哪些?
常见的XID错误包括图形引擎异常(XID 13)、GPU内存页错误(XID 31)和驱动固件错误(XID 38)。
如何解决GPU过热问题?
可以通过终止高温应用程序或将其迁移到其他GPU上来解决GPU过热问题。
如何查看GPU的温度?
可以使用命令nvidia-smi --query-gpu=index,temperature.gpu --format=csv,noheader查看GPU温度。
在Pod中执行nvidia-smi时出现错误怎么办?
出现'Function not Found'错误通常是由于CUDA版本不匹配,可以通过设置环境变量并重启应用来解决。
GPU温度超过85°C会有什么影响?
GPU温度超过85°C会导致性能下降和锁频问题。