小红花·文摘

DeepSeek团队推出的CoE（Chain-of-Experts）技术通过迭代机制将内存需求降低17.6%-42%。该技术允许专家在单层内串行通信，提升稀疏MoE模型的性能和资源效率。实验表明，在相同计算预算下，验证损失显著降低，专家组合自由度大幅增加。此技术由Zihan Wang等人提出，旨在优化稀疏神经网络的信息处理。