量子位 ·

DeepSeek前实习生魔改MoE，用迭代机制把内存需求砍了42%，团队：“免费午餐”优化方法

💡 原文中文，约2400字，阅读约需6分钟。

📝

内容提要

DeepSeek团队推出的CoE（Chain-of-Experts）技术通过迭代机制将内存需求降低17.6%-42%。该技术允许专家在单层内串行通信，提升稀疏MoE模型的性能和资源效率。实验表明，在相同计算预算下，验证损失显著降低，专家组合自由度大幅增加。此技术由Zihan Wang等人提出，旨在优化稀疏神经网络的信息处理。

🎯

关键要点

DeepSeek团队推出的CoE技术通过迭代机制将内存需求降低17.6%-42%。
CoE允许专家在单层内串行通信，提升稀疏MoE模型的性能和资源效率。
实验表明，经过2次迭代的CoE在相同计算预算下验证损失显著降低。
CoE的专家组合自由度增加了823倍，显示出显著优势。
CoE通过在单个层的迭代中将MoE输出反馈为多次迭代的输入来实现。
团队使用DeepSeek V2架构验证CoE的有效性，结果显示在性能和资源效率方面具有显著优势。
CoE在相似算力和内存要求下，能够显著减少内存需求。
独立门控机制和内残差连接是CoE的关键架构创新。
CoE由Zihan Wang等5人团队提出，Zihan Wang曾在DeepSeek实习。

❓

延伸问答

CoE技术的主要优势是什么？

CoE技术通过迭代机制将内存需求降低17.6%-42%，并显著提高了稀疏MoE模型的性能和资源效率。

CoE是如何实现专家间的通信的？

CoE允许专家在单层内串行通信，通过迭代机制使专家能够在其他专家的输出基础上处理token。

CoE技术的提出者是谁？

CoE技术由Zihan Wang等5人团队提出，Zihan Wang曾在DeepSeek实习。

CoE与传统MoE模型相比有什么不同？

CoE通过串行处理和迭代机制优化了信息流，而传统MoE模型通常依赖并行处理，内存需求较高。

CoE技术在实验中表现如何？

实验表明，经过2次迭代的CoE在相同计算预算下，验证损失显著降低，从1.20降至1.12。

CoE技术的关键创新是什么？

CoE的关键创新在于独立门控机制和内残差连接，这些设计显著提升了模型性能。

🏷️

继续阅读

与TorchRec KeyedJaggedTensor的同步
Efficiently Using TorchRec KeyedJaggedTensor In GPU Systems
HostKVM香港优化线路 VPS 限时 8 折：4GB 内存/2 核/40G SSD 仅需 $9.6/月
HostKVM推出香港VPS夏季特惠，所有线路享受8折优惠，针对内地客户优化，具备低延迟和高带宽性价比，支持信用卡和支付宝等多种支付方式。
便宜好用真香！美国企业把DeepSeek买上了趋势榜第一
Ramp发布的2026年热门软件供应商榜单显示，中国AI公司DeepSeek首次重返增长，企业采用率为0.1%。其成本显著低于Anthropic和Open...
团队在处理重复支付时面临的后台挑战
现代支付系统表面简单，但重复交易的后台复杂性显著。文章探讨了构建重复支付系统时的七个挑战，包括管理支付计划、避免重复收费、优雅处理失败支付、保持系统状态一...
在自主数据库时代，人类的需求为何不会消失
Percona联合创始人Vadim Tkachenko在会议上指出，未来数据库管理员将转变为数据架构师，日常维护将由自动化和人工智能处理，人类将专注于数据...
台积电难以跟上人工智能需求：‘我们只能支持这么多’
台积电面临满足美国客户需求的挑战，尽管在美国扩建工厂。CEO魏哲家表示，客户需求过高，生产能力有限，可能需要很长时间才能满足。预计到2027年，半导体市场...