常用 NPU 运维及故障处理

💡 原文中文,约1400字,阅读约需4分钟。
📝

内容提要

文章介绍了处理故障的步骤,包括挂载设备、创建Pod和驱动升级。首先,通过命令行挂载设备并运行容器;然后,使用kubectl创建名为test-ascend-pod的Pod;最后,进行驱动升级,下载并执行相关固件和驱动程序。

🎯

关键要点

  • 通过命令行挂载设备并运行容器,使用命令:nerdctl run --rm -it --ipc=host。
  • 使用kubectl创建名为test-ascend-pod的Pod,指定镜像和节点名称。
  • 进行驱动升级,下载并执行相关固件和驱动程序,使用wget命令获取文件。

延伸问答

如何通过命令行挂载设备并运行容器?

使用命令:nerdctl run --rm -it --ipc=host --device=/dev/davinci7 --device=/dev/davinci_manager --device=/dev/devmm_svm --device=/dev/hisi_hdc -v /usr/local/Ascend/driver:/usr/local/Ascend/driver -v /usr/local/Ascend/add-ons/:/usr/local/Ascend/add-ons/ -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi ${IMAGE} /bin/bash。

如何创建名为test-ascend-pod的Pod?

使用kubectl命令创建Pod,命令如下:kubectl create -f - <<EOF apiVersion: v1 kind: Pod metadata: name: test-ascend-pod namespace: default spec: restartPolicy: Never nodeName: ${NodeName} containers: - name: ascend-container image: ${IMAGE} command: ["/bin/bash"] args: ["-c", "sleep infinity"] resources: limits: huawei.com/Ascend910: "1" requests: huawei.com/Ascend910: "1" EOF。

驱动升级的步骤是什么?

首先创建目录并进入:mkdir -p /data/paascontainer/ops && cd /data/paascontainer/ops。然后下载固件和驱动程序:wget http://mirrors-internal.cmecloud.cn/coca/huawei/910b/Ascend-hdk-910b-npu-firmware_7.7.0.1.231.run 和 wget http://mirrors-internal.cmecloud.cn/coca/huawei/910b/Ascend-hdk-910b-npu-driver_25.0.rc1.1_linux-aarch64.run。最后,执行升级命令:./Ascend-hdk-*-npu-firmware_*.run --upgrade 和 ./Ascend-hdk-*-npu-driver_*.run --upgrade,最后重启系统。

在创建Pod时需要指定哪些参数?

在创建Pod时需要指定名称、命名空间、重启策略、节点名称、容器名称、镜像、命令和资源限制等参数。

如何使用wget命令下载文件?

使用wget命令可以通过指定文件的URL进行下载,例如:wget http://mirrors-internal.cmecloud.cn/coca/huawei/910b/Ascend-hdk-910b-npu-firmware_7.7.0.1.231.run。

在容器中如何保持运行状态?

可以通过在创建Pod时设置命令为['/bin/bash']和参数为['-c', 'sleep infinity']来保持容器的运行状态。

➡️

继续阅读