6个常见的IB网络不通问题

💡 原文中文,约4400字,阅读约需11分钟。
📝

内容提要

本文记录了常见IB网络不通问题的解决方法,从高层往底层逐步分析。包括NCCL不通、ib_write_bw不通、ibv_rc_pingpong不通、rping不通和ping不通的报错及解决方法。提供了详细的错误信息和相应的解决方案。

🎯

关键要点

  • 遇到IB网络不通时,可以从高层往底层逐步分析。
  • NCCL不通的原因可能是RDMA网络不通,需要分析底层网络。
  • ib_write_bw不通的报错表明网络不通,需要继续分析RDMA链路。
  • ibv_rc_pingpong不通需要分析IP网络是否通。
  • rping不通可能是地址连不上,需要判断IP链路是否通。
  • ping不通可能是路由设置问题,需要确认发送报文的网卡是否选择正确。
  • ARP表不对可能导致rping不通,需要清空ARP表并设置ARP应答规则。
➡️

继续阅读