Ascend DMI 工具使用指南

💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

MindCluster ToolBox 是一款集群运维和硬件管理工具,提供设备监控、性能测试和日志收集功能。安装包括下载工具包、设置环境变量和验证安装。用户可查询 NPU 状态、检测信号质量、进行性能测试和故障诊断。

🎯

关键要点

  • MindCluster ToolBox 是一款集群运维和硬件管理工具,提供设备监控、性能测试和日志收集功能。
  • 安装过程包括下载工具包、设置环境变量和验证安装。
  • 工具包依赖于 Ascend Toolkit 提供的库 libascendcl.so。
  • 用户可以查询 NPU 状态、检测信号质量、进行性能测试和故障诊断。
  • 信息查询功能包括查看 NPU 实时状态和检测 HCCS/PCIe 信号质量。
  • 性能测试功能可以验证算力、测试 host-device、device-host 和 device-device 带宽。
  • 故障诊断功能包括健康检查、性能规格检查和压测。
  • NPU 环境恢复功能用于在电压异常或掉卡时恢复 NPU 环境。

延伸问答

MindCluster ToolBox 的主要功能是什么?

MindCluster ToolBox 主要用于设备监控、性能测试和日志收集等运维操作。

如何安装 MindCluster ToolBox?

安装过程包括下载工具包、设置环境变量和验证安装。

用户如何查询 NPU 状态?

用户可以使用命令 'ascend-dmi --info' 来查看 NPU 的实时状态。

性能测试功能可以验证哪些内容?

性能测试功能可以验证算力、测试 host-device、device-host 和 device-device 的带宽。

故障诊断功能包括哪些检查项?

故障诊断功能包括健康检查、性能规格检查和压测。

NPU 环境恢复功能的用途是什么?

NPU 环境恢复功能用于在电压异常或掉卡时恢复 NPU 环境。

➡️

继续阅读