量子位 ·

全新GPU高速互联设计，为大模型训练降本增效！北大/阶跃/曦智提出新一代高带宽域架构

💡 原文中文，约5600字，阅读约需14分钟。

📝

内容提要

北京大学等团队提出的InfiniteHBD架构，通过光交换模组实现低成本、高扩展性和容错能力，显著提升大模型训练效率。该架构成本仅为现有方案的31%，GPU浪费率接近零，已被SIGCOMM 2025接收。

🎯

🔎

InfiniteHBD架构通过光交换模组实现了低成本和高扩展性，显著降低了大模型训练的GPU浪费率。这种架构的单位成本仅为现有方案的31%，在故障情况下几乎没有资源浪费，显示出其在大规模训练中的潜力。

目前的HBD架构存在可扩展性和容错能力的根本性限制。例如，以交换机为中心的架构虽然性能高，但成本高且易造成资源碎片化。相比之下，InfiniteHBD在设计上克服了这些缺陷，提供了更灵活的解决方案。

InfiniteHBD的设计包含三项关键创新：基于硅光子技术的光电转换模组、可重配置的K-Hop Ring拓扑和HBD-DCN编排算法。这些技术的结合使得架构在动态可重构和故障隔离方面表现优异，适应大规模训练的需求。

❓

InfiniteHBD架构通过光交换模组实现低成本、高扩展性和容错能力，显著提升大模型训练效率，成本仅为现有方案的31%。

InfiniteHBD通过低成本光交换能力和动态可重构的拓扑设计，克服了现有HBD架构在可扩展性、成本和容错能力方面的限制。

InfiniteHBD包含三项关键创新：基于硅光子技术的OCS光电转换模组、可重配置的K-Hop Ring拓扑和HBD-DCN编排算法。

InfiniteHBD在故障弹性方面表现优异，GPU浪费率几乎为零，显著低于其他架构。

InfiniteHBD的互连成本仅为NVL-72的31%，能耗也处于最低水平，仅为NVL-72的75%。

通过提供Tbps级带宽支持和动态重构能力，InfiniteHBD显著提升了大模型训练的计算效率与通信性能。

🏷️