土法炼钢兴趣小组的博客 ·

【大模型基础设施工程】04：互联与网络——NVLink、InfiniBand、RoCE 与国产替代

💡 原文中文，约19800字，阅读约需48分钟。

📝

内容提要

在2024-2026年，GPU训练的瓶颈转向网络互联。文章探讨了机内和跨机的互联技术，如NVLink、InfiniBand和RoCEv2，强调LLM训练对网络带宽和延迟的敏感性，需优化通信以提高效率。分析了不同拓扑结构的优缺点，并提出调优方案以解决训练中的网络问题，最终强调网络基础设施在大规模训练中的重要性。

🎯

关键要点

在2024-2026年，GPU训练的瓶颈转向网络互联。
LLM训练对网络带宽和延迟的敏感性要求优化通信以提高效率。
机内互联技术如NVLink、NVSwitch等可实现高带宽、低延迟的GPU互联。
跨机互联技术如InfiniBand和RoCEv2适合大规模训练，具有良好的扩展性。
不同拓扑结构（如Fat-Tree、Rail-optimized、Dragonfly）各有优缺点，影响网络性能。
网络基础设施在大规模训练中的重要性不可忽视，需关注故障域和网络调优。

❓

延伸问答

在2024-2026年，GPU训练的主要瓶颈是什么？

在2024-2026年，GPU训练的主要瓶颈转向网络互联。

LLM训练对网络带宽和延迟的敏感性有什么影响？

LLM训练对网络带宽和延迟的敏感性要求优化通信，以提高训练效率。

NVLink和InfiniBand的主要区别是什么？

NVLink主要用于机内互联，提供高带宽和低延迟，而InfiniBand适合跨机互联，具有良好的扩展性。

什么是Rail-optimized拓扑，它的优缺点是什么？

Rail-optimized拓扑按卡号分轨，优点是AllReduce带宽稳定，故障域清晰；缺点是跨rail通信需要多跳。

在大规模训练中，网络基础设施的重要性体现在哪些方面？

网络基础设施在大规模训练中至关重要，需关注故障域和网络调优，以确保高效的训练过程。

RoCEv2在大规模训练中的优势是什么？

RoCEv2能直接利用现有以太网基础设施，成本较低且易于扩展，适合大规模训练。

🏷️

继续阅读

Harness Engineering：把 AI 真正接进工程流程 - SharpCJ
Harness Engineering 旨在将 AI 纳入工程流程，通过明确任务边界、上下文和验证机制，提升 AI 的执行稳定性。它强调 AI 在清晰框架...
一起看比赛的超低延迟直播 + 实时解说连麦 + 高并发弹幕的工程方案
本文探讨了“一起看比赛”的技术方案，强调低延迟的重要性。比赛直播需确保观众同步看到进球，避免剧透。采用超低延迟直播（600ms~1s）和RTC解说连麦，结...
Lumine Group 达成协议，将从 Synamedia 收购其视频网络业务
Lumine Group宣布收购Synamedia的视频网络业务，这是其第16笔企业剥离交易，旨在增强其在媒体供应链中的布局，专注于视频处理和直播流媒体。...
流畅多人游戏背后的基础设施
实时多人游戏的流畅体验依赖于低延迟、专用服务器和内容分发网络。延迟超过200毫秒会显著影响用户体验。现代游戏采用云服务和混合架构以提升性能，同时确保安全性...
【译文】运行一个 AI-native 的工程团队
文章讨论了AI驱动的工程组织中编码流程的转变。随着Claude Code的引入，编码、测试和重构的瓶颈转移至验证和代码审查。团队通过及时规划和原型开发，减...
阿里云免费DNS限速来了！解析量超标限速？附替代方案推荐
阿里云宣布自2026年6月24日起，免费版云解析DNS将实施每日解析量限额（10万次）。超限后可能影响解析稳定性，建议用户关注解析量并考虑升级付费版。用户...