小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

2024年,混合专家(MoE)架构成为大模型的主流,开源项目如Mixtral和DeepSeek推动了其发展。MoE通过减少激活参数显著降低计算成本,同时提升模型表达能力,适合算力充裕的场景。关键技术包括细粒度专家、共享专家和改进的负载均衡策略。未来,MoE将向更大规模和动态专家数发展。

【大模型基础设施工程】08:MoE 训练工程

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
混合专家架构在人工智能模型中的工作原理

混合专家(MoE)架构通过将AI模型划分为多个专门子网络来优化性能,仅激活相关专家以减少计算需求。Mixtral模型展示了MoE在实际应用中的高效性,尽管存在负载均衡挑战,但通过“噪声top-k”技术可实现更均衡的专家激活。MoE架构在提升AI系统效率方面具有重要潜力。

混合专家架构在人工智能模型中的工作原理

freeCodeCamp.org
freeCodeCamp.org · 2026-04-07T17:18:05Z
打破密集瓶颈:Voyage-4-large如何利用混合专家(MoE)进行扩展

本文介绍了Voyage AI在嵌入模型扩展方面的研究,特别是通过混合专家(MoE)架构提高效率。Voyage-4-large模型实现了75%的参数减少,同时保持检索准确率,显著降低计算成本和延迟。MoE模型通过优化设计有效解耦知识容量与计算成本。

打破密集瓶颈:Voyage-4-large如何利用混合专家(MoE)进行扩展

Voyage AI
Voyage AI · 2026-03-03T22:26:12Z
Voyage 4模型系列:采用混合专家架构的共享嵌入空间

Voyage 4系列推出四种文本嵌入模型,具共享嵌入空间,支持不同模型间的互用。voyage-4-large采用混合专家架构,提升检索准确率并降低40%成本,适合高效检索需求的客户和开发者,支持多维度嵌入,优化查询与文档嵌入的独立调优。

Voyage 4模型系列:采用混合专家架构的共享嵌入空间

Voyage AI
Voyage AI · 2026-01-15T14:55:00Z
DeepSeek公布全新论文,梁文锋署名

DeepSeek发布论文《条件记忆》,提出将“条件记忆”作为大语言模型的新稀疏维度,以解决知识检索的低效问题。研究表明,结合条件记忆与混合专家(MoE)可显著提升模型性能,特别是在知识推理和代码生成方面。预计新模型DeepSeek V4将应用此技术,进一步增强AI竞争力。

DeepSeek公布全新论文,梁文锋署名

TechWeb 全站精华
TechWeb 全站精华 · 2026-01-13T06:03:09Z
小猫都能懂的大模型原理 6 - 模型优化

本文介绍了大语言模型的优化方法,包括蒸馏、量化、超长上下文和混合专家。蒸馏通过大模型指导小模型以减小体积并保留能力;量化通过降低精度节省内存;超长上下文利用局部窗口和环形注意力优化计算;混合专家则选择性激活部分专家以减少计算量。这些方法有效提升了模型的效率和性能。

小猫都能懂的大模型原理 6 - 模型优化

UsubeniFantasy
UsubeniFantasy · 2025-12-25T08:00:51Z

本文探讨了AI的核心技术,包括Transformer与混合专家(MoE)的比较、微调大模型的五种方法、RAG系统的改进及智能体设计模式,强调智能体在任务中的主动性和自我评估能力,从而提升AI的输出质量和效率。

图解AI核心技术:大模型、RAG、智能体、MCP

FreeBuf网络安全行业门户
FreeBuf网络安全行业门户 · 2025-10-17T03:54:10Z
图解AI核心技术:大模型、RAG、智能体、MCP

本文介绍了AI中的核心技术,包括混合专家(MoE)与Transformer的比较、微调大模型的五种方法(如LoRA、VeRA等),以及改进RAG系统的智能体设计模式。智能体通过自我评估和规划提高输出质量,MCP协议优化了工具的访问和使用。

图解AI核心技术:大模型、RAG、智能体、MCP

京东科技开发者
京东科技开发者 · 2025-10-16T11:25:37Z
Heroku AI扩展模型产品,推出OpenAI的gpt-oss-120b

OpenAI推出了gpt-oss-120b开源模型,拥有1200亿参数和混合专家架构,适用于文本生成和理解。开发者可根据Apache 2.0许可证进行调整,支持实时任务执行。该模型性能与OpenAI的o4-mini相当,并可在Heroku平台上简化AI基础设施,提供透明定价。

Heroku AI扩展模型产品,推出OpenAI的gpt-oss-120b

Heroku
Heroku · 2025-08-20T15:00:14Z

智谱于7月28日发布了新一代旗舰模型GLM-4.5,包括GLM-4.5和轻量级GLM-4.5-Air,参数量分别为3550亿和1060亿。该模型采用混合专家架构,具备强大的推理和编程能力,API调用价格低,性能优于同类产品,成为开发者的高性价比选择。

智谱发布GLM-4.5,卷飞了所有开源大模型

dotNET跨平台
dotNET跨平台 · 2025-08-03T00:01:43Z
变换器模型中的混合专家架构

混合专家(MoE)架构在变换器模型中引入稀疏性,允许模型高效扩展而不增加计算成本。MoE通过多个专家模型处理输入,使用路由器选择合适的专家。每个变换器层都有独立的专家集,激活部分参数以提升性能。MoE的实现包括专家网络、路由机制和输出组合,能够在保持低计算资源的同时提升模型表现。

变换器模型中的混合专家架构

MachineLearningMastery.com
MachineLearningMastery.com · 2025-07-01T03:19:28Z
Qwen3技术解析:开源大模型的新标杆,附Qwen3技术报告英中对照版

Qwen3系列模型在开源大模型领域取得突破,具备动态思维、优化的混合专家架构和强大的多语言能力。其训练策略包括三阶段预训练和后训练优化,表现优异于数学推理、代码生成和多语言任务。未来将进一步优化超长上下文和多模态融合,推动AI民主化。

Qwen3技术解析:开源大模型的新标杆,附Qwen3技术报告英中对照版

我爱自然语言处理
我爱自然语言处理 · 2025-05-13T14:41:40Z

本研究探讨了混合专家(MoE)层在深度学习中的表达能力,提出增加活跃专家数量能够显著提升模型性能,实验结果验证了这一理论。

The Power of Fine-Grained Experts: Granularity Enhances the Expressive Capability of Mixture of Experts

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-11T00:00:00Z
Meta 的 Llama 4 模型现已在 Amazon Bedrock 中可用

Meta推出的Llama 4模型(Scout 17B和Maverick 17B)现已在Amazon Bedrock上上线,具备多模态功能和混合专家架构,支持多语言和图像理解,适用于企业智能代理和内容创作等多种场景。

Meta 的 Llama 4 模型现已在 Amazon Bedrock 中可用

亚马逊AWS官方博客
亚马逊AWS官方博客 · 2025-05-01T02:15:07Z

斯坦福大学CS336课程介绍了混合专家模型的最新进展,强调其在高性能系统中的重要性。该模型通过稀疏激活多个子组件,提高了计算效率和性能。研究表明,在相同计算量下,混合专家模型的训练效果优于密集模型。开源系统DeepSeek展示了这一架构在大规模训练中的优势。

斯坦福大学CS336课程:从零开始的语言建模 - 2025年春季 - 混合专家模型

Josherich的博客
Josherich的博客 · 2025-04-24T00:00:01Z
苹果发现原生多模态模型Scaling Laws:早融合优于后融合,MoE优于密集模型

研究表明,原生多模态模型(NMM)在早融合和后融合架构中性能相当,早融合在低参数下表现更佳且训练效率高。结合混合专家(MoE)可显著提升性能。随着计算预算增加,两者性能趋近,稀疏性有利于早融合。建议在统一架构内进行多模态特化,以更好地处理异构数据。

苹果发现原生多模态模型Scaling Laws:早融合优于后融合,MoE优于密集模型

机器之心
机器之心 · 2025-04-12T07:52:56Z

本研究提出了一种新方法“MoE专家压缩套件”(MC-Suite),旨在解决稀疏激活混合专家(SMoE)模型的冗余和内存需求问题。通过迭代修剪和微调机制,优化专家丢弃过程,显著提升了SMoE的能力,尤其是指令执行能力,为混合专家模型的高效性和可扩展性提供了重要见解。

Finding Outstanding Experts in Mixture of Experts: A Unified Study on Expert Dropping Strategies and Observations

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-08T00:00:00Z

该研究提出了协作约束路由(C2R)策略,以提高混合专家(MoE)模型的效率,解决专家激活不平衡和通信开销过高的问题。实验结果显示,该方法在多个NLP基准测试中提升了性能,并显著降低了GPU间的通信成本。

Enhancing the Efficiency of Mixture of Experts (MoE): A Collaboration-Constrained Routing (C2R) Strategy for Better Expert Parallelism Design

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

DeepSeek-VL2是一种基于混合专家架构的多模态大模型,能够高效处理图像和文本数据。通过动态切片策略和多头潜在注意力机制,提升视觉理解和推理效率,适用于图文理解和问答等任务。

前沿多模态模型开发与应用实战3:DeepSeek-VL2多模态理解大模型算法解析与功能抢先体验

百度大脑
百度大脑 · 2025-03-19T12:03:59Z

本研究探讨了混合专家(MoE)模型在处理复杂数据时的优势,解决了计算资源消耗大和适应性差的问题。文章综述了MoE的设计、算法及其在机器学习中的应用,展示了其在提升模型性能和效率方面的潜力,尤其在大规模多模态数据处理中表现优异。

A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-10T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码