全新GPU高速互联设计,为大模型训练降本增效!北大/阶跃/曦智提出新一代高带宽域架构

💡 原文中文,约5600字,阅读约需14分钟。
📝

内容提要

北京大学等团队提出的InfiniteHBD架构,通过光交换模组实现低成本、高扩展性和容错能力,显著提升大模型训练效率。该架构成本仅为现有方案的31%,GPU浪费率接近零,已被SIGCOMM 2025接收。

🎯

关键要点

  • InfiniteHBD架构通过光交换模组实现低成本、高扩展性和容错能力,显著提升大模型训练效率。

  • 该架构成本仅为现有方案的31%,GPU浪费率接近零,已被SIGCOMM 2025接收。

  • 现有HBD架构存在可扩展性、成本和容错能力等方面的根本性限制。

  • InfiniteHBD采用低成本光交换能力,提供数据中心规模的可扩展性和节点级故障隔离能力。

  • InfiniteHBD的单位成本显著低于现有架构,且在训练效率上有显著提升。

  • 现有HBD架构可分为三类:以交换机为中心的HBD、以GPU为中心的HBD和交换机-GPU混合型HBD。

  • InfiniteHBD包含三项关键创新:基于硅光子技术的OCS光电转换模组、可重配置的K-Hop Ring拓扑和HBD-DCN编排算法。

  • InfiniteHBD在故障弹性方面表现优异,GPU浪费率几乎为零,显著低于其他架构。

  • 在大规模仿真中,InfiniteHBD的互连成本和能耗均处于最低水平,具有明显优势。

  • 研究团队与多方合作伙伴紧密合作,推动高带宽互连技术的发展。

延伸问答

InfiniteHBD架构的主要优势是什么?

InfiniteHBD架构通过光交换模组实现低成本、高扩展性和容错能力,显著提升大模型训练效率,成本仅为现有方案的31%。

InfiniteHBD如何解决现有HBD架构的限制?

InfiniteHBD通过低成本光交换能力和动态可重构的拓扑设计,克服了现有HBD架构在可扩展性、成本和容错能力方面的限制。

InfiniteHBD的关键创新有哪些?

InfiniteHBD包含三项关键创新:基于硅光子技术的OCS光电转换模组、可重配置的K-Hop Ring拓扑和HBD-DCN编排算法。

InfiniteHBD在故障弹性方面表现如何?

InfiniteHBD在故障弹性方面表现优异,GPU浪费率几乎为零,显著低于其他架构。

InfiniteHBD的互连成本和能耗表现如何?

InfiniteHBD的互连成本仅为NVL-72的31%,能耗也处于最低水平,仅为NVL-72的75%。

InfiniteHBD如何提升大模型训练效率?

通过提供Tbps级带宽支持和动态重构能力,InfiniteHBD显著提升了大模型训练的计算效率与通信性能。

➡️

继续阅读