💡
原文中文,约2600字,阅读约需7分钟。
📝
内容提要
DeepSeek 宣布本周为开源周,已开源 FlashMLA 和 DeepEP。DeepEP 是为 MoE 模型设计的高效通信库,支持 NVLink 和 RDMA,优化数据传输和计算速度,提升训练效率。开源后,该库迅速获得关注,Star 数量超过 1000,显示其在 AI 基础设施中的重要性。
🎯
关键要点
- DeepSeek 宣布本周为开源周,连续开源五个软件库。
- 第一个开源库是 FlashMLA,用于 Hopper GPU 的高效 MLA 解码核,Star 数量迅速接近 8k。
- 第二个开源项目是 DeepEP,为 MoE 模型设计的高效通信库,支持 NVLink 和 RDMA。
- DeepEP 提供高效的 All-to-All 通信,优化数据传输和计算速度,提升训练效率。
- DeepEP 支持 FP8 数据分发,灵活控制 GPU 资源,实现计算与通信的高效重叠。
- DeepEP 的开源后 Star 数量超过 1000,显示其在 AI 基础设施中的重要性。
- DeepEP 是专为混合专家系统(MoE)和专家并行(EP)定制的通信库,提供高吞吐量和低延迟的 GPU 内核。
- DeepEP 包含低延迟内核,使用纯 RDMA 最小化延迟,并引入通信-计算重叠方法。
- DeepSeek 在 H800 上测试 DeepEP 的性能,使用 NVLink 和 RDMA forwarding 的常规内核和低延迟内核。
- DeepSeek 强调其技术创新实现了训练效率提升和成本降低,反驳了之前的质疑。
- 结尾提到 Real OPENAI 的诞生,期待第三天的发布内容。
➡️