为DeepSeek MoE模型带来「免费午餐」加速，专家链可大幅提升LLM的信息处理能力

机器之心 ·

为DeepSeek MoE模型带来「免费午餐」加速，专家链可大幅提升LLM的信息处理能力

💡 原文中文，约7000字，阅读约需17分钟。

📝

内容提要

王子涵等提出的专家链（CoE）技术通过专家间串行通信，显著提升了稀疏神经网络的性能和资源效率。CoE在降低内存需求和提高专家使用效率等方面超越了传统的专家混合模型（MoE），为大规模语言模型的高效扩展提供了新途径。

🎯

关键要点

专家链（CoE）技术通过专家间串行通信提升稀疏神经网络性能和资源效率。
CoE在降低内存需求和提高专家使用效率方面超越传统的专家混合模型（MoE）。
王子涵等研究者已发布CoE的相关代码和博客，研究论文将在近期发布。
CoE引入迭代机制，使专家能够在处理token时进行沟通，解决了MoE模型中专家独立处理的问题。
实验结果显示，CoE在多个方面显著超越MoE，包括性能提升、资源效率优化和专家组合自由度增加。
CoE在算力和显存预算相似的情况下，效果明显优于MoE，降低了验证损失。
CoE的迭代处理机制使得专家间的依赖关系和动态路由机制得以实现，促进了专家间的直接通信。
CoE提供了所谓的'免费午餐'效应，以更少的计算开销实现更好的结果。
未来工作将扩展模型尺寸、预训练步数和批量大小，并在通用数据集上进行测试。
CoE的架构设计和独立门控机制显著提升了模型性能，体现了专家的分化和有效深度。

❓

延伸问答

专家链（CoE）技术如何提升稀疏神经网络的性能？

CoE通过专家间的串行通信和迭代处理机制，使得专家能够在处理token时进行沟通，从而显著提升了性能和资源效率。

CoE与传统的专家混合模型（MoE）相比有哪些优势？

CoE在降低内存需求、提高专家使用效率和性能方面显著超越MoE，且提供了'免费午餐'效应，能以更少的计算开销实现更好的结果。

CoE的迭代处理机制是如何工作的？

CoE的迭代处理机制允许专家在每次迭代中基于前一次的输出进行选择和处理，从而形成专家间的依赖关系和动态路由。

CoE在实验中表现如何？

实验结果显示，CoE在多个任务上显著提升了性能，例如在Math任务中将验证损失从1.20降低至1.12，同时减少了17.6-42%的内存需求。

未来的研究方向是什么？

未来的研究将扩展模型尺寸、预训练步数和批量大小，并在通用数据集上进行测试，以进一步评估CoE的有效性。

CoE的架构设计有哪些关键发现？

CoE的架构设计强调了独立门控机制和内残差连接的重要性，这些设计显著提升了模型性能和有效深度。

🏷️

继续阅读

Galaxea G0.5——升级“VLA自回归建模”范式：摒弃VLM上添加动作专家的模式，而是构建统一模型，用一套权重，在同一个自回归token序列中同时生成推理与动作(含VLA-0的详解)
星海图提出的G0.5模型将视觉语言模型与动作生成统一为单一自回归序列，通过共享权重实现推理与动作的耦合，提升机器人控制效率。该模型采用可学习的动作分词器和...
为什么Java在大程序里比C++和Rust更快？系统思维取胜
在大规模程序中，Java的性能通常优于C++和Rust。底层语言为了控制和最坏情况表现，牺牲了全局优化能力，导致内存管理和并发处理效率低下。Java通过灵...
Nvidia最新模型现已上线
Nvidia发布了Nemotron 3 Ultra模型，拥有5500亿参数，支持高达100万标记的上下文窗口。该模型速度显著提升，能节省用户30%的成本。...
Mate Security的Asaf Wiener让每位后端工程师成为模型路由器。他这样做是正确的。
Mate Security的CEO Asaf Wiener强调AI原生公司的成本管理重要性。他通过细分AI模型的成本，确保每个后端工程师参与模型选择和评估...
使用Scikit-LLM与开源语言模型
本文介绍如何使用Ollama本地托管的开源语言模型（如Llama 3、Mistral和Gemma）进行文本分类，避免支付API费用。内容包括Ollama的...
谷歌发布并开源Gemma 4 12B版多模态模型可在16GB内存/显存上运行
谷歌发布了Gemma 4 12B多模态模型，支持文本、图片、视频和音频输入，能够在仅16GB内存的消费级设备上运行。该模型采用无编码器架构，降低延迟并简化...