Ascend 310P + openFuyao + NPU-Operator 故障排查
💡
原文中文,约21800字,阅读约需52分钟。
📝
内容提要
在Ascend 310P故障排查中,发现由于虚拟环境缺少systemd,导致无法获取卡信息。定制镜像并安装systemd后,成功识别npu资源。
🎯
关键要点
- 在Ascend 310P故障排查中,发现虚拟环境缺少systemd,导致无法获取卡信息。
- 定制镜像并安装systemd后,成功识别npu资源。
- 故障pod描述显示设备插件状态为CrashLoopBackOff。
- 检查/dev和驱动目录,确认驱动文件存在。
- 日志显示获取卡数量失败,提示初始化失败。
- 需要在虚拟环境中定制镜像以安装systemd。
- 构建镜像时需修改Dockerfile以安装systemd。
- 修复后在节点中成功看到npu资源。
❓
延伸问答
Ascend 310P故障排查中遇到的主要问题是什么?
主要问题是虚拟环境缺少systemd,导致无法获取卡信息。
如何解决Ascend 310P的故障?
通过定制镜像并安装systemd,成功识别npu资源。
在故障pod中,设备插件的状态是什么?
设备插件状态为CrashLoopBackOff。
如何检查Ascend 310P的驱动文件是否存在?
可以通过检查/dev和驱动目录来确认驱动文件是否存在。
构建Ascend 310P镜像时需要注意什么?
需要在Dockerfile中加入安装systemd的命令。
修复Ascend 310P故障后能看到什么?
修复后在节点中成功看到npu资源。
🏷️
标签
➡️