FRED: 适用于芯片尺度分布式深度学习模型训练的灵活缩减分发互连和通信实现
📝
内容提要
提出了 FRED,这是一个面向片上网络的高带宽要求而量身定制的片上互连,可有效执行不同并行化策略的通信模式,并且通过大约 2 倍降低网络流量,改善了 ResNet-152,Transformer-17B,GPT-3 和 Transformer-1T 的平均端到端训练时间。
➡️
提出了 FRED,这是一个面向片上网络的高带宽要求而量身定制的片上互连,可有效执行不同并行化策略的通信模式,并且通过大约 2 倍降低网络流量,改善了 ResNet-152,Transformer-17B,GPT-3 和 Transformer-1T 的平均端到端训练时间。