DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定
💡
原文中文,约2800字,阅读约需7分钟。
📝
内容提要
DeepSeek开源了DeepEP,这是一个专为MoE模型训练和推理设计的通信库,支持高吞吐量和低延迟的GPU内核,兼容Hopper GPUs,需Python 3.8及以上版本,提供优化的全到全通信,适用于AI基础设施。
🎯
关键要点
- DeepSeek开源了DeepEP,这是一个专为MoE模型训练和推理设计的通信库。
- DeepEP提供高吞吐量和低延迟的all-to-all GPU内核,支持低精度运算,包括FP8。
- 开源协议采用MIT,DeepEP在GitHub上线。
- DeepEP支持NVLink和RDMA的节点内和节点间通信。
- 普通内核优化了非对称域带宽转发,适用于训练和推理预填充任务。
- 低延迟内核针对延迟敏感型推理解码场景,采用hook方法实现通信计算重叠。
- DeepEP需要Hopper GPUs、Python 3.8及以上、CUDA 12.3及以上、PyTorch 2.1及以上。
- DeepEP与InfiniBand网络兼容,建议将工作负载隔离到不同的虚拟通道中。
- 低延迟内核支持自适应路由,普通内核不支持,启用自适应路由可能导致死锁。
- DeepSeek建议在网络负载较重的环境中启用自适应路由,较轻的环境中使用静态路由。
- DeepEP已禁用拥塞控制,未观察到明显的拥塞问题。
- DeepSeek在GitHub上新开了一个库,专注于AI基础设施相关内容。
➡️