使用 Volcano 运行 nccl-test

💡 原文中文,约3800字,阅读约需9分钟。
📝

内容提要

本文介绍了如何制作和推送nccl-test镜像,并使用Volcano Job运行nccl-test进行测试。同时还提供了清理环境和解决常见问题的方法。

🎯

关键要点

  • 制作 nccl-test 镜像的步骤包括查看 CUDA 版本、编写 Dockerfile、编译和推送镜像。
  • 使用 kubectl 给测试节点打标签,以便于 Volcano Job 的创建和管理。
  • 创建 Volcano Job 的配置包括设置最小可用节点数、调度器名称和任务模板。
  • 运行 nccl-test 时需要查看 Pod 状态并进入 Pod 配置环境变量,执行测试命令。
  • 清理环境时使用 kubectl 删除 nccl-test 作业。
  • 常见问题包括 'invalid device ordinal' 错误,可能与 CUDA 设备配置有关。
➡️

继续阅读