Ascend NPU 驱动安装

💡 原文中文,约8900字,阅读约需22分钟。
📝

内容提要

本文介绍了Ascend NPU驱动、固件及Docker运行时的安装步骤,包括创建用户、下载驱动和固件、安装Docker或Containerd、配置和验证安装。最后提供了加入K8s集群及创建测试Pod的指导。

🎯

关键要点

  • 创建用户 HwHiAiUser 并添加目录权限。
  • 下载并安装 Ascend NPU 驱动和固件。
  • 下载并安装 ascend-docker-runtime。
  • 可选:安装 Docker 或 Containerd,配置并验证安装。
  • 加入 K8s 集群,生成 Token 并创建测试 Pod。
  • 进行 NPU 状态检测,包括健康状态和网卡状态。

延伸问答

如何创建用户 HwHiAiUser 并添加目录权限?

使用命令 `groupadd -g 1000 HwHiAiUser` 和 `useradd -g HwHiAiUser -u 1000 -d /home/HwHiAiUser -m HwHiAiUser -s /bin/bash` 创建用户,然后使用 `chown -R HwHiAiUser /usr/local/Ascend` 和 `chmod -R 755 /usr/local/Ascend` 添加权限。

如何下载和安装 Ascend NPU 驱动和固件?

前往指定链接下载驱动和固件,然后使用命令 `bash ./Ascend-hdk-910b-npu-driver_24.1.rc2.2_linux-x86-64.run --full --install-for-all` 安装驱动,使用 `bash ./Ascend-hdk-910b-npu-firmware_7.3.0.2.220.run --full` 安装固件。

安装 Docker 或 Containerd 的步骤是什么?

可以选择安装 Docker 或 Containerd。对于 Docker,添加源并使用 `apt-get install docker-ce` 安装;对于 Containerd,使用 `apt install containerd.io` 安装。

如何将 Ascend NPU 加入 K8s 集群?

在 master 节点生成 token,使用命令 `kubeadm token create --print-join-command`,然后在 worker 节点使用生成的命令加入集群。

如何创建测试 Pod?

使用 `kubectl apply -f -` 命令创建 Pod,指定镜像和资源请求,最后使用 `kubectl logs npu-demo` 查看 Pod 状态。

如何进行 NPU 状态检测?

使用 `npu-smi info` 和 `hccn_tool` 命令检测 NPU 的健康状态、网卡状态等,具体命令包括 `npu-smi info -t health -i $i`。

➡️

继续阅读