Ascend 310P + openFuyao + NPU-Operator 故障排查

💡 原文中文,约21800字,阅读约需52分钟。
📝

内容提要

在Ascend 310P故障排查中,发现由于虚拟环境缺少systemd,导致无法获取卡信息。定制镜像并安装systemd后,成功识别npu资源。

🎯

关键要点

  • 在Ascend 310P故障排查中,发现虚拟环境缺少systemd,导致无法获取卡信息。
  • 定制镜像并安装systemd后,成功识别npu资源。
  • 故障pod描述显示设备插件状态为CrashLoopBackOff。
  • 检查/dev和驱动目录,确认驱动文件存在。
  • 日志显示获取卡数量失败,提示初始化失败。
  • 需要在虚拟环境中定制镜像以安装systemd。
  • 构建镜像时需修改Dockerfile以安装systemd。
  • 修复后在节点中成功看到npu资源。

延伸问答

Ascend 310P故障排查中遇到的主要问题是什么?

主要问题是虚拟环境缺少systemd,导致无法获取卡信息。

如何解决Ascend 310P的故障?

通过定制镜像并安装systemd,成功识别npu资源。

在故障pod中,设备插件的状态是什么?

设备插件状态为CrashLoopBackOff。

如何检查Ascend 310P的驱动文件是否存在?

可以通过检查/dev和驱动目录来确认驱动文件是否存在。

构建Ascend 310P镜像时需要注意什么?

需要在Dockerfile中加入安装systemd的命令。

修复Ascend 310P故障后能看到什么?

修复后在节点中成功看到npu资源。

➡️

继续阅读