全新GPU高速互联设计,为大模型训练降本增效!北大/阶跃/曦智提出新一代高带宽域架构
内容提要
北京大学等团队提出的InfiniteHBD架构,通过光交换模组实现低成本、高扩展性和容错能力,显著提升大模型训练效率。该架构成本仅为现有方案的31%,GPU浪费率接近零,已被SIGCOMM 2025接收。
关键要点
-
InfiniteHBD架构通过光交换模组实现低成本、高扩展性和容错能力,显著提升大模型训练效率。
-
该架构成本仅为现有方案的31%,GPU浪费率接近零,已被SIGCOMM 2025接收。
-
现有HBD架构存在可扩展性、成本和容错能力等方面的根本性限制。
-
InfiniteHBD采用低成本光交换能力,提供数据中心规模的可扩展性和节点级故障隔离能力。
-
InfiniteHBD的单位成本显著低于现有架构,且在训练效率上有显著提升。
-
现有HBD架构可分为三类:以交换机为中心的HBD、以GPU为中心的HBD和交换机-GPU混合型HBD。
-
InfiniteHBD包含三项关键创新:基于硅光子技术的OCS光电转换模组、可重配置的K-Hop Ring拓扑和HBD-DCN编排算法。
-
InfiniteHBD在故障弹性方面表现优异,GPU浪费率几乎为零,显著低于其他架构。
-
在大规模仿真中,InfiniteHBD的互连成本和能耗均处于最低水平,具有明显优势。
-
研究团队与多方合作伙伴紧密合作,推动高带宽互连技术的发展。
延伸问答
InfiniteHBD架构的主要优势是什么?
InfiniteHBD架构通过光交换模组实现低成本、高扩展性和容错能力,显著提升大模型训练效率,成本仅为现有方案的31%。
InfiniteHBD如何解决现有HBD架构的限制?
InfiniteHBD通过低成本光交换能力和动态可重构的拓扑设计,克服了现有HBD架构在可扩展性、成本和容错能力方面的限制。
InfiniteHBD的关键创新有哪些?
InfiniteHBD包含三项关键创新:基于硅光子技术的OCS光电转换模组、可重配置的K-Hop Ring拓扑和HBD-DCN编排算法。
InfiniteHBD在故障弹性方面表现如何?
InfiniteHBD在故障弹性方面表现优异,GPU浪费率几乎为零,显著低于其他架构。
InfiniteHBD的互连成本和能耗表现如何?
InfiniteHBD的互连成本仅为NVL-72的31%,能耗也处于最低水平,仅为NVL-72的75%。
InfiniteHBD如何提升大模型训练效率?
通过提供Tbps级带宽支持和动态重构能力,InfiniteHBD显著提升了大模型训练的计算效率与通信性能。