小红花·文摘

2024年，混合专家（MoE）架构成为大模型的主流，开源项目如Mixtral和DeepSeek推动了其发展。MoE通过减少激活参数显著降低计算成本，同时提升模型表达能力，适合算力充裕的场景。关键技术包括细粒度专家、共享专家和改进的负载均衡策略。未来，MoE将向更大规模和动态专家数发展。

【大模型基础设施工程】08：MoE 训练工程

土法炼钢兴趣小组的博客 ·

混合专家架构在人工智能模型中的工作原理

freeCodeCamp.org ·

打破密集瓶颈：Voyage-4-large如何利用混合专家（MoE）进行扩展

Voyage AI ·

Voyage 4模型系列：采用混合专家架构的共享嵌入空间

Voyage AI ·

DeepSeek公布全新论文，梁文锋署名

TechWeb 全站精华 ·

小猫都能懂的大模型原理 6 - 模型优化

UsubeniFantasy ·

本文探讨了AI的核心技术，包括Transformer与混合专家（MoE）的比较、微调大模型的五种方法、RAG系统的改进及智能体设计模式，强调智能体在任务中的主动性和自我评估能力，从而提升AI的输出质量和效率。

图解AI核心技术：大模型、RAG、智能体、MCP

FreeBuf网络安全行业门户 ·

图解AI核心技术：大模型、RAG、智能体、MCP

京东科技开发者 ·

Heroku AI扩展模型产品，推出OpenAI的gpt-oss-120b

Heroku ·

智谱于7月28日发布了新一代旗舰模型GLM-4.5，包括GLM-4.5和轻量级GLM-4.5-Air，参数量分别为3550亿和1060亿。该模型采用混合专家架构，具备强大的推理和编程能力，API调用价格低，性能优于同类产品，成为开发者的高性价比选择。

智谱发布GLM-4.5，卷飞了所有开源大模型

dotNET跨平台 ·

变换器模型中的混合专家架构

MachineLearningMastery.com ·

Qwen3技术解析：开源大模型的新标杆，附Qwen3技术报告英中对照版

我爱自然语言处理 ·

本研究探讨了混合专家（MoE）层在深度学习中的表达能力，提出增加活跃专家数量能够显著提升模型性能，实验结果验证了这一理论。

The Power of Fine-Grained Experts: Granularity Enhances the Expressive Capability of Mixture of Experts

BriefGPT - AI 论文速递 ·

Meta 的 Llama 4 模型现已在 Amazon Bedrock 中可用

亚马逊AWS官方博客 ·

斯坦福大学CS336课程介绍了混合专家模型的最新进展，强调其在高性能系统中的重要性。该模型通过稀疏激活多个子组件，提高了计算效率和性能。研究表明，在相同计算量下，混合专家模型的训练效果优于密集模型。开源系统DeepSeek展示了这一架构在大规模训练中的优势。

斯坦福大学CS336课程：从零开始的语言建模 - 2025年春季 - 混合专家模型

Josherich的博客 ·

苹果发现原生多模态模型Scaling Laws：早融合优于后融合，MoE优于密集模型

机器之心 ·

本研究提出了一种新方法“MoE专家压缩套件”（MC-Suite），旨在解决稀疏激活混合专家（SMoE）模型的冗余和内存需求问题。通过迭代修剪和微调机制，优化专家丢弃过程，显著提升了SMoE的能力，尤其是指令执行能力，为混合专家模型的高效性和可扩展性提供了重要见解。

Finding Outstanding Experts in Mixture of Experts: A Unified Study on Expert Dropping Strategies and Observations

BriefGPT - AI 论文速递 ·

该研究提出了协作约束路由(C2R)策略，以提高混合专家(MoE)模型的效率，解决专家激活不平衡和通信开销过高的问题。实验结果显示，该方法在多个NLP基准测试中提升了性能，并显著降低了GPU间的通信成本。

Enhancing the Efficiency of Mixture of Experts (MoE): A Collaboration-Constrained Routing (C2R) Strategy for Better Expert Parallelism Design

BriefGPT - AI 论文速递 ·

DeepSeek-VL2是一种基于混合专家架构的多模态大模型，能够高效处理图像和文本数据。通过动态切片策略和多头潜在注意力机制，提升视觉理解和推理效率，适用于图文理解和问答等任务。

前沿多模态模型开发与应用实战3：DeepSeek-VL2多模态理解大模型算法解析与功能抢先体验

百度大脑 ·

本研究探讨了混合专家（MoE）模型在处理复杂数据时的优势，解决了计算资源消耗大和适应性差的问题。文章综述了MoE的设计、算法及其在机器学习中的应用，展示了其在提升模型性能和效率方面的潜力，尤其在大规模多模态数据处理中表现优异。

A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications

BriefGPT - AI 论文速递 ·