Llama3.1训练平均3小时故障一次,H100万卡集群好脆弱,气温波动都会影响吞吐量

💡 原文中文,约2700字,阅读约需7分钟。
📝

内容提要

Llama 3.1,一个大规模的AI训练模型,在预训练期间频繁出现故障,其中58.7%的问题与GPU有关。团队使用了PyTorch的NCCL飞行记录器等工具来诊断和解决问题。环境因素,如温度波动,也影响了训练性能。随着Meta计划扩展Llama模型,维护一个大型AI集群将是一个挑战。构建和管理这样的集群是复杂的。

🎯

关键要点

  • Llama 3.1在预训练期间平均每3小时发生一次故障,主要由GPU问题引起,占58.7%。
  • 在466次任务中断中,419次为意外中断,其中148次由GPU故障引起,72次由HBM3内存故障引起。
  • 团队使用PyTorch的NCCL飞行记录器等工具来快速诊断和解决问题,保持了超90%的有效训练时间。
  • 环境因素如温度波动对训练性能有影响,吞吐量在一天中会有1-2%的变化。
  • Meta计划到年底增加350000个NVIDIA H100 GPU,面临构建和管理大型AI集群的挑战。
  • 构建大规模AI算力集群复杂,涉及电力、网络设计、并行和可靠性等多个方面的局限。
➡️

继续阅读