小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

2024年,混合专家(MoE)架构成为大模型的主流,开源项目如Mixtral和DeepSeek推动了其发展。MoE通过减少激活参数显著降低计算成本,同时提升模型表达能力,适合算力充裕的场景。关键技术包括细粒度专家、共享专家和改进的负载均衡策略。未来,MoE将向更大规模和动态专家数发展。

【大模型基础设施工程】08:MoE 训练工程

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
Mythos架构被22岁小伙“逆推”开源了!MoE和注意力借鉴DeepSeek

OpenMythos是一种新型的循环深度Transformer架构,采用MoE路由机制,通过跨专家权重共享实现高效推理。在参数量减少近一半的情况下,其性能与传统模型相当。研究表明,循环Transformer在处理未见知识组合和深度推理方面表现更佳,可能改变大模型的训练方式,受到学术界关注。

Mythos架构被22岁小伙“逆推”开源了!MoE和注意力借鉴DeepSeek

量子位
量子位 · 2026-04-20T07:59:51Z
Mistral AI 发布 Mistral Small 4:一款拥有 1190 亿参数的 MoE 模型

Mistral AI 发布了 Mistral Small 4,具备指令执行、推理和多模态理解功能,支持256k上下文窗口,具有可配置推理强度,提升了推理效率和经济性,适合通用聊天和复杂推理。

Mistral AI 发布 Mistral Small 4:一款拥有 1190 亿参数的 MoE 模型

实时互动网
实时互动网 · 2026-03-17T02:21:52Z
打破密集瓶颈:Voyage-4-large如何利用混合专家(MoE)进行扩展

本文介绍了Voyage AI在嵌入模型扩展方面的研究,特别是通过混合专家(MoE)架构提高效率。Voyage-4-large模型实现了75%的参数减少,同时保持检索准确率,显著降低计算成本和延迟。MoE模型通过优化设计有效解耦知识容量与计算成本。

打破密集瓶颈:Voyage-4-large如何利用混合专家(MoE)进行扩展

Voyage AI
Voyage AI · 2026-03-03T22:26:12Z

上一篇文章《MoE环游记:6、最优分配促均衡》中,我们通过求解如下最优分配问题来实现负载均衡\begin{equation}\max_{x_{i,j}\in\{0,1\}} \sum_{i,j}...

MoE环游记:7、动态激活极简解

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2026-02-23T02:31:00Z

我们知道,负载均衡(Load Balance)是MoE架构中基本且关键的一环,直接影响模型的效率和性能。本系列已经有两篇文章介绍了两种实现负载均衡的主流思路,分别是《MoE环游记:2、不患寡而患...

MoE环游记:6、最优分配促均衡

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2026-02-22T02:15:00Z
众智FlagOS适配千问Qwen3.5 397B MoE模型多芯版统一发布,下载可用

AI短名单是对长篇文章的简要概述,旨在提炼出核心信息。

众智FlagOS适配千问Qwen3.5 397B MoE模型多芯版统一发布,下载可用

机器之心
机器之心 · 2026-02-20T13:12:01Z
美团发布基于 N-gram 全新模型:嵌入扩展新范式,实现轻量化 MoE 高效进化

美团 LongCat 团队推出了 LongCat-Flash-Lite,这是一款轻量化的 MoE 模型,参数量为685亿,推理时激活29亿至45亿参数。该模型在智能体和编程任务中表现优异,尤其在复杂工具使用和代码修复方面,现已开源,欢迎开发者体验。

美团发布基于 N-gram 全新模型:嵌入扩展新范式,实现轻量化 MoE 高效进化

美团技术团队
美团技术团队 · 2026-02-10T00:00:00Z
MoE比你想象的更强大:基于RoE的超并行推理扩展

本文介绍了一种名为RoE的超并行推理框架,旨在提升大语言模型(LLM)在标记级别的预测质量。RoE通过动态组合多个专家模型,利用受控随机性为每个标记采样多个专家,从而实现更准确的预测。此外,该方法在计算效率上进行了优化,使得7B MoE模型的性能可与10.5B MoE模型相媲美,同时减少了30%的计算需求。

MoE比你想象的更强大:基于RoE的超并行推理扩展

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-12T00:00:00Z
超DeepEP两倍!无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈,专为Agent爆发设计

AI短名单是对长篇文章的简要概述,旨在提炼出核心信息。

超DeepEP两倍!无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈,专为Agent爆发设计

机器之心
机器之心 · 2025-12-31T09:56:00Z
Mamba作者团队提出SonicMoE:一个Token舍入,让MoE训练速度提升近2倍

AI短名单是对人工智能领域中重要项目或技术的简要概述,旨在突出其关键特征和影响。

Mamba作者团队提出SonicMoE:一个Token舍入,让MoE训练速度提升近2倍

机器之心
机器之心 · 2025-12-19T07:02:33Z

OpenAI开源的新模型采用Circuit Sparsity技术,使99.9%的权重为零,提升了模型的可解释性。通过严格的连接约束,简化了计算过程,解决了传统模型的黑箱问题。尽管计算成本较高,但未来有望实现更复杂的推理。

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

量子位
量子位 · 2025-12-14T06:27:09Z
MoE-PHDS:一个用于灵活运行时稀疏性的MoE检查点

本文介绍了MoE-PHDS(后hoc声明稀疏性),一种轻量级的SFT方法,允许在推理时灵活调整稀疏性,而无需更换模型或架构。PHDS通过在不同稀疏水平上训练,提高了模型的准确性和延迟可预测性,简化了MoE的部署,并提升了跨稀疏性的一致性。实验结果显示,PHDS在多个操作点上优于传统模型。

MoE-PHDS:一个用于灵活运行时稀疏性的MoE检查点

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-11T00:00:00Z
华为放出「准万亿级MoE推理」大招,两大杀手级优化技术直接开源

抱歉,您提供的文本内容过于简短,无法进行有效总结。请提供更详细的文章内容。

华为放出「准万亿级MoE推理」大招,两大杀手级优化技术直接开源

机器之心
机器之心 · 2025-11-28T07:32:42Z
哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA

抱歉,提供的文本内容不足以进行总结。请提供更详细的文章内容。

哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA

机器之心
机器之心 · 2025-11-25T09:57:00Z
DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均

抱歉,提供的文本内容过于简短,无法有效总结。请提供更详细的文章内容。

DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均

机器之心
机器之心 · 2025-11-20T15:54:03Z

英特尔在2025技术大会上推出酷睿Ultra 9 200H系列处理器,支持最高128GB内存和120B MoE模型,提升本地AI体验,适用于多种设备,满足专业与日常需求,确保数据隐私,推动智能化进程。

英特尔酷睿Ultra 9 200H系列焕新:120B MoE大模型,智能感官觉醒

量子位
量子位 · 2025-11-20T13:22:08Z
Uni-MoE-2.0-Omni:基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

Uni-MoE-2.0-Omni是哈尔滨工业大学深圳分校研发的全模态大型模型,支持文本、图像、音频和视频的理解与生成。基于Qwen2.5-7B模型,采用动态容量路由和渐进式监督学习,显著提升了跨模态推理能力,尤其在视频理解和长语音处理方面表现优异。

Uni-MoE-2.0-Omni:基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

实时互动网
实时互动网 · 2025-11-19T02:32:18Z

Cursor发布了首个编程大模型Composer,速度达每秒250个tokens,效率提升400%。Cursor 2.0新版本引入原生浏览器工具和语音生成代码功能,支持多Agent协作。Composer通过强化学习训练,能在真实环境中执行编程任务,但模型来源尚不明确。

Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构

量子位
量子位 · 2025-10-30T01:30:40Z
香港科技大学等提出增量天气预报模型VA-MoE,参数精简 75% 仍达 SOTA 性能

天气预报面临复杂挑战,数值天气预报(NWP)是主流方法。近年来,深度学习在气象建模中展现出潜力,催生了「气象人工智能(AI4Weather)」。现有模型需全量重训,计算成本高。香港科技大学等提出「增量天气预报(IWF)」新范式,推出「变量自适应专家混合模型(VA-MoE)」,可在新增变量时无需全量重训,从而降低计算开销。研究成果已被国际顶会接收。

香港科技大学等提出增量天气预报模型VA-MoE,参数精简 75% 仍达 SOTA 性能

HyperAI超神经
HyperAI超神经 · 2025-10-13T07:02:01Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码