使用 Volcano 运行 nccl-test
💡
原文中文,约3800字,阅读约需9分钟。
📝
内容提要
本文介绍了如何制作和推送nccl-test镜像,并使用Volcano Job运行nccl-test进行测试。同时还提供了清理环境和解决常见问题的方法。
🎯
关键要点
- 制作 nccl-test 镜像的步骤包括查看 CUDA 版本、编写 Dockerfile、编译和推送镜像。
- 使用 kubectl 给测试节点打标签,以便于 Volcano Job 的创建和管理。
- 创建 Volcano Job 的配置包括设置最小可用节点数、调度器名称和任务模板。
- 运行 nccl-test 时需要查看 Pod 状态并进入 Pod 配置环境变量,执行测试命令。
- 清理环境时使用 kubectl 删除 nccl-test 作业。
- 常见问题包括 'invalid device ordinal' 错误,可能与 CUDA 设备配置有关。
➡️