该研究展示了基于真实世界的大规模模型训练和数据中心规模基础设施的研究成果,通过GPU时间用于非重叠计算的通信,最小化未完成的通信延迟。研究者开发了一个灵活的性能建模框架来指导并行化和硬件软件共同设计策略。使用现代GPU训练硬件上的真实大规模ML模型套件,研究者展示了预训练和推理场景的2.24倍和5.27倍的吞吐量提升潜力。
正在访问的资源需要验证您是否真人。
或在微信中搜索公众号“小红花技术领袖”并关注
第二步:在公众号对话中发送验证码: