Ascend 环境变量配置
💡
原文中文,约3200字,阅读约需8分钟。
📝
内容提要
本文介绍了HCCL的初始化配置,包括通信网卡IP、端口号、超时设置和白名单功能。用户可通过环境变量配置网卡、协议、缓存大小及通信算法,以优化集群通信性能。
🎯
关键要点
- HCCL初始化配置包括通信网卡IP、端口号、超时设置和白名单功能。
- HCCL_IF_IP用于配置通信网卡的IP地址。
- HCCL_IF_BASE_PORT指定Host网卡的起始端口号,默认占用16个端口。
- HCCL_SOCKET_IFNAME用于指定使用的网卡名称。
- HCCL_SOCKET_FAMILY指定通信网卡使用的IP协议,支持IPv4和IPv6。
- HCCL_CONNECT_TIMEOUT限制不同设备之间socket建链的超时时间,默认120秒。
- HCCL_EXEC_TIMEOUT控制设备间执行时的同步等待时间,默认1836秒。
- HCCL_INTRA_PCIE_ENABLE和HCCL_INTRA_ROCE_ENABLE配置多卡间的通信方式。
- HCCL_WHITELIST_FILE指定通信白名单配置文件的路径。
- HCCL_WHITELIST_DISABLE用于开启或关闭通信白名单,默认值为1(关闭)。
- HCCL_RDMA_TC和HCCL_RDMA_SL配置RDMA网卡的traffic class和service level。
- HCCL_BUFFSIZE配置通信缓存的大小,默认值为100MB。
- HCCL_RDMA_TIMEOUT和HCCL_RDMA_RETRY_CNT配置RDMA网卡的重传超时时间和重传次数。
- HCCL_ALGO配置集合通信的跨机通信算法,支持全局和按算子配置。
- HCCL_DIAGNOSE_ENABLE用于开启任务详细信息的缓存,便于问题定位。
- HCCL_ENTRY_LOG_ENABLE控制算子调用行为日志的打印方式。
- HCCL_OP_EXPANSION_MODE配置通信算法的编排展开位置。
- HCCL_DETERMINISTIC配置是否开启归约类通信算子的确定性计算,默认值为false。
➡️