量子位 ·

DeepSeek开源第二弹，为MoE和EP量身定制的通信库！暂和英伟达显卡绑定

💡 原文中文，约2800字，阅读约需7分钟。

📝

内容提要

DeepSeek开源了DeepEP，这是一个专为MoE模型训练和推理设计的通信库，支持高吞吐量和低延迟的GPU内核，兼容Hopper GPUs，需Python 3.8及以上版本，提供优化的全到全通信，适用于AI基础设施。

🎯

关键要点

DeepSeek开源了DeepEP，这是一个专为MoE模型训练和推理设计的通信库。
DeepEP提供高吞吐量和低延迟的all-to-all GPU内核，支持低精度运算，包括FP8。
开源协议采用MIT，DeepEP在GitHub上线。
DeepEP支持NVLink和RDMA的节点内和节点间通信。
普通内核优化了非对称域带宽转发，适用于训练和推理预填充任务。
低延迟内核针对延迟敏感型推理解码场景，采用hook方法实现通信计算重叠。
DeepEP需要Hopper GPUs、Python 3.8及以上、CUDA 12.3及以上、PyTorch 2.1及以上。
DeepEP与InfiniBand网络兼容，建议将工作负载隔离到不同的虚拟通道中。
低延迟内核支持自适应路由，普通内核不支持，启用自适应路由可能导致死锁。
DeepSeek建议在网络负载较重的环境中启用自适应路由，较轻的环境中使用静态路由。
DeepEP已禁用拥塞控制，未观察到明显的拥塞问题。
DeepSeek在GitHub上新开了一个库，专注于AI基础设施相关内容。

❓

延伸问答

DeepEP是什么？

DeepEP是一个专为MoE模型训练和推理设计的开源通信库，提供高吞吐量和低延迟的GPU内核。

使用DeepEP需要哪些硬件和软件要求？

DeepEP需要Hopper GPUs、Python 3.8及以上、CUDA 12.3及以上和PyTorch 2.1及以上。

DeepEP的低延迟内核有什么特点？

低延迟内核针对延迟敏感型推理解码场景，采用hook方法实现通信计算重叠，最大限度减少延迟。

DeepEP支持哪些通信方式？

DeepEP支持NVLink和RDMA的节点内和节点间通信。

DeepEP的开源协议是什么？

DeepEP采用MIT开源协议，允许广泛使用和修改。

DeepEP如何优化网络性能？

DeepEP建议在网络负载较重的环境中启用自适应路由，而在较轻的环境中使用静态路由，以优化性能。

🏷️

继续阅读

与TorchRec KeyedJaggedTensor的同步
推荐系统中的稀疏特征用于建模用户偏好和物品特性，但存在输入数据长度不一和内存浪费的问题。TorchRec的KeyedJaggedTensor通过合并稀疏特...
[开源] 阿里巴巴发布AI驱动的代码审查工具Open Code Review 帮助开发者审查代码
阿里巴巴开源了基于人工智能的代码审查工具Open Code Review（OCR），旨在解决传统审查中的覆盖不全、位置漂移和不稳定等问题。开发者可通过配置...
每家公司的首个人工智能战略都应该是技能库
企业在实施人工智能时，首要任务是建立“技能图书馆”，记录优秀员工的工作流程和经验，将其转化为可重复使用的技能，以提升AI的实用性和效率，帮助公司更好地利用人工智能。
Roku LT OS开源解析：从遥控器系统到电动赛车控制平台
Roku开源了Roku LT OS，旨在为开发者提供轻量化架构和高度确定性的执行能力，适用于嵌入式设备和电动赛车。该系统强调资源控制和时间可预测性，已在电...
英国通信管理局（Ofcom）制定人工智能战略，相关研究正在进行中
英国通信管理局（Ofcom）发布了更新的人工智能战略，旨在支持通信行业采用人工智能并应对消费者风险。该战略强调技术中立和结果导向，推动创新并确保安全，包括...
英特尔再次强调不会放弃Arc锐炫独立显卡英特尔也希望从游戏显卡里赚钱
英特尔重申不会放弃Arc锐炫独立显卡业务，仍看好移动和PC游戏市场。尽管市场占有率仅为0.28%，公司希望通过推出高性价比显卡吸引玩家。独立显卡仍是其产品...