Engineering at Meta ·

用于大规模分布式AI训练的RoCE网络

💡 原文英文，约2100词，阅读约需8分钟。

📝

内容提要

Meta在ACM SIGCOMM 2024会议上分享了他们在大规模分布式AI训练工作负载中使用的网络细节，包括采用RDMA over Ethernet技术构建数据中心网络、设计路径固定方案以提高网络流量均衡和路由效率、优化集体流量模式以改善网络拥塞控制。这些设计对分布式AI训练基础设施的发展至关重要。

🎯

关键要点

Meta在ACM SIGCOMM 2024会议上分享了大规模分布式AI训练工作负载的网络细节。
AI网络连接数万GPU，支持大规模模型训练。
Meta采用RDMA over Ethernet技术构建数据中心网络，优化了网络流量均衡和路由效率。
构建专用的后端网络以支持分布式训练，前端网络用于数据摄取和日志记录。
AI区采用两级Clos拓扑结构，支持大规模GPU互联。
为解决训练流量的低熵和突发性问题，Meta设计了路径固定方案。
通过增强的ECMP和队列对（QP）扩展，提高了网络流量的性能。
在400G部署中，Meta未使用DCQCN，而是依赖PFC进行流量控制。
接收驱动的流量接纳机制限制了网络中的在途流量，优化了性能。
Meta的网络基础设施将随着GenAI工作负载的快速增长而迅速演变。

❓

延伸问答

Meta在大规模分布式AI训练中使用了什么网络技术？

Meta在大规模分布式AI训练中采用了RDMA over Ethernet（RoCEv2）技术。

Meta如何优化其AI训练网络的流量均衡？

Meta通过设计路径固定方案和增强的ECMP来优化网络流量均衡。

Meta的AI网络是如何支持大规模GPU互联的？

Meta的AI网络采用两级Clos拓扑结构，支持大规模GPU互联，确保高带宽和低延迟。

在400G部署中，Meta选择了什么样的流量控制方案？

在400G部署中，Meta未使用DCQCN，而是依赖PFC进行流量控制。

Meta是如何解决训练流量的低熵和突发性问题的？

Meta通过设计路径固定方案和优化训练作业调度器来解决训练流量的低熵和突发性问题。

Meta的网络基础设施将如何应对GenAI工作负载的增长？

Meta的网络基础设施将随着GenAI工作负载的快速增长而迅速演变，以满足日益增长的计算需求。

🏷️

继续阅读

Cloudflare收购VoidZero：开放网络的一部分是变得更加稳定，还是变得更加脆弱？
Cloudflare本周宣布收购VoidZero，并承诺其开发工具Vite将继续保持开源和社区驱动。尽管开发者对此反应不一，Cloudflare表示将致力...
我们在2026年5月发布的最新AI新闻
谷歌在2026年5月推出了多个AI相关产品，包括Gemini 3.5和Gemini Omni，旨在提升日常生活便利性。新应用Google Health和F...
有人靠CPU把AI算力密度卷到了新高度
英特尔推出新技术以应对Agentic AI的算力焦虑，提升AI算力密度，推动数据中心和AI的发展。
您的AI费用失控了。Cloudflare现在可以解决这个问题。
Cloudflare推出AI Gateway，帮助企业控制AI支出。新功能包括预算限制和身份驱动的支出管理，允许按用户、团队或模型设置预算。通过集中管理，...
2026年数据与AI峰会：金融服务领导者的内部指南
2026年数据与AI峰会将于6月15日至18日在旧金山举行，聚焦金融服务行业的AI转型与现代化，主要议题包括保险承保、负责任的AI应用及资本市场智能化。与...
Presentation: Platform Teams Enabling AI - MCP/Multi-Agentic Tools Across Linkedin
LinkedIn’s Karthik Ramgopal and Prince Valluri discuss leveraging AI as a new...