Ascend DMI 工具使用指南
💡
原文中文,约2700字,阅读约需7分钟。
📝
内容提要
MindCluster ToolBox 是一款集群运维和硬件管理工具,提供设备监控、性能测试和日志收集功能。安装包括下载工具包、设置环境变量和验证安装。用户可查询 NPU 状态、检测信号质量、进行性能测试和故障诊断。
🎯
关键要点
- MindCluster ToolBox 是一款集群运维和硬件管理工具,提供设备监控、性能测试和日志收集功能。
- 安装过程包括下载工具包、设置环境变量和验证安装。
- 工具包依赖于 Ascend Toolkit 提供的库 libascendcl.so。
- 用户可以查询 NPU 状态、检测信号质量、进行性能测试和故障诊断。
- 信息查询功能包括查看 NPU 实时状态和检测 HCCS/PCIe 信号质量。
- 性能测试功能可以验证算力、测试 host-device、device-host 和 device-device 带宽。
- 故障诊断功能包括健康检查、性能规格检查和压测。
- NPU 环境恢复功能用于在电压异常或掉卡时恢复 NPU 环境。
❓
延伸问答
MindCluster ToolBox 的主要功能是什么?
MindCluster ToolBox 主要用于设备监控、性能测试和日志收集等运维操作。
如何安装 MindCluster ToolBox?
安装过程包括下载工具包、设置环境变量和验证安装。
用户如何查询 NPU 状态?
用户可以使用命令 'ascend-dmi --info' 来查看 NPU 的实时状态。
性能测试功能可以验证哪些内容?
性能测试功能可以验证算力、测试 host-device、device-host 和 device-device 的带宽。
故障诊断功能包括哪些检查项?
故障诊断功能包括健康检查、性能规格检查和压测。
NPU 环境恢复功能的用途是什么?
NPU 环境恢复功能用于在电压异常或掉卡时恢复 NPU 环境。
➡️