量子位 ·

Llama3.1训练平均3小时故障一次，H100万卡集群好脆弱，气温波动都会影响吞吐量

💡 原文中文，约2700字，阅读约需7分钟。

📝

内容提要

Llama 3.1，一个大规模的AI训练模型，在预训练期间频繁出现故障，其中58.7%的问题与GPU有关。团队使用了PyTorch的NCCL飞行记录器等工具来诊断和解决问题。环境因素，如温度波动，也影响了训练性能。随着Meta计划扩展Llama模型，维护一个大型AI集群将是一个挑战。构建和管理这样的集群是复杂的。

🎯

关键要点

Llama 3.1在预训练期间平均每3小时发生一次故障，主要由GPU问题引起，占58.7%。
在466次任务中断中，419次为意外中断，其中148次由GPU故障引起，72次由HBM3内存故障引起。
团队使用PyTorch的NCCL飞行记录器等工具来快速诊断和解决问题，保持了超90%的有效训练时间。
环境因素如温度波动对训练性能有影响，吞吐量在一天中会有1-2%的变化。
Meta计划到年底增加350000个NVIDIA H100 GPU，面临构建和管理大型AI集群的挑战。
构建大规模AI算力集群复杂，涉及电力、网络设计、并行和可靠性等多个方面的局限。

❓

延伸问答

Llama 3.1的训练故障主要由什么原因引起？

Llama 3.1的训练故障主要由GPU问题引起，占58.7%。

Llama 3.1在预训练期间经历了多少次任务中断？

Llama 3.1在预训练期间经历了466次任务中断。

团队是如何提高Llama 3.1的有效训练时间的？

团队通过减少任务启动和checkpointing时间，并使用PyTorch的NCCL飞行记录器等工具来快速诊断和解决问题，提高了有效训练时间。

环境因素如何影响Llama 3.1的训练性能？

环境因素如温度波动会导致Llama 3.1的吞吐量在一天中变化1-2%。

Meta计划如何扩展Llama模型的训练规模？

Meta计划到年底增加350000个NVIDIA H100 GPU，以扩展Llama模型的训练规模。

构建大规模AI算力集群面临哪些挑战？

构建大规模AI算力集群面临电力、网络设计、并行和可靠性等多个方面的复杂挑战。

🏷️