小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
在线教程丨16GB笔记本跑出接近26B MoE性能,Gemma 4 12B基于创新架构统一处理文本/图像/声音三种模态

Google DeepMind 发布了新款多模态模型 Gemma 4 12B,参数为120亿,但在多项测试中表现接近260亿参数的模型。其无编码器架构显著降低了推理延迟和内存占用,支持音频输入,并可在普通笔记本上运行,降低了部署成本,为开发者提供了接近顶级性能的选择。

在线教程丨16GB笔记本跑出接近26B MoE性能,Gemma 4 12B基于创新架构统一处理文本/图像/声音三种模态

HyperAI超神经
HyperAI超神经 · 2026-06-10T03:09:51Z
KT-FT v0.6.1:实现从MoE微调到本地服务的完整闭环

KT-FT v0.6.1更新了MoE SFT后端,提升了训练速度和内存使用效率。新版本支持将训练好的适配器无缝集成到SGLang中,并优化了本地服务流程。用户可通过转换脚本将适配器分为专家和非专家LoRA,确保有效运行,目标是实现从本地微调到服务的完整闭环。

KT-FT v0.6.1:实现从MoE微调到本地服务的完整闭环

Home | KVCache.ai
Home | KVCache.ai · 2026-05-29T00:00:00Z

到目前为止,“MoE环游记”系列已经写了7篇文章,其中5篇都是围绕着MoE的路由和负载均衡展开的。从路由的形式来看,它们可以分为静态计算和动态计算两类;从实现负载均衡的方法上看,它们又可以分为A...

MoE环游记:8、强制序列级均衡

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2026-05-22T06:46:00Z
DeepSeek-V4——迈向百万token上下文:保留V3的MoE和多token预测机制,提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

DeepSeek-V4系列模型推出了1.6T和284B参数的两个版本,采用混合注意力架构和流形约束超连接,提升了长上下文处理效率。通过Muon优化器和多项基础设施优化,模型在训练和推理阶段展现出更高的稳定性和效率。预训练后,DeepSeek-V4在多个基准测试中超越前代,设立了新的性能标准。

DeepSeek-V4——迈向百万token上下文:保留V3的MoE和多token预测机制,提出混合注意力机制(CSA/HCA)、流形约束超连接mHC(替代残差)、Muon优化器(取代AdamW)

结构之法 算法之道
结构之法 算法之道 · 2026-05-03T15:54:48Z

2024年,混合专家(MoE)架构成为大模型的主流,开源项目如Mixtral和DeepSeek推动了其发展。MoE通过减少激活参数显著降低计算成本,同时提升模型表达能力,适合算力充裕的场景。关键技术包括细粒度专家、共享专家和改进的负载均衡策略。未来,MoE将向更大规模和动态专家数发展。

【大模型基础设施工程】08:MoE 训练工程

土法炼钢兴趣小组的博客
土法炼钢兴趣小组的博客 · 2026-04-22T00:00:00Z
Mythos架构被22岁小伙“逆推”开源了!MoE和注意力借鉴DeepSeek

OpenMythos是一种新型的循环深度Transformer架构,采用MoE路由机制,通过跨专家权重共享实现高效推理。在参数量减少近一半的情况下,其性能与传统模型相当。研究表明,循环Transformer在处理未见知识组合和深度推理方面表现更佳,可能改变大模型的训练方式,受到学术界关注。

Mythos架构被22岁小伙“逆推”开源了!MoE和注意力借鉴DeepSeek

量子位
量子位 · 2026-04-20T07:59:51Z
Mistral AI 发布 Mistral Small 4:一款拥有 1190 亿参数的 MoE 模型

Mistral AI 发布了 Mistral Small 4,具备指令执行、推理和多模态理解功能,支持256k上下文窗口,具有可配置推理强度,提升了推理效率和经济性,适合通用聊天和复杂推理。

Mistral AI 发布 Mistral Small 4:一款拥有 1190 亿参数的 MoE 模型

实时互动网
实时互动网 · 2026-03-17T02:21:52Z
打破密集瓶颈:Voyage-4-large如何利用混合专家(MoE)进行扩展

本文介绍了Voyage AI在嵌入模型扩展方面的研究,特别是通过混合专家(MoE)架构提高效率。Voyage-4-large模型实现了75%的参数减少,同时保持检索准确率,显著降低计算成本和延迟。MoE模型通过优化设计有效解耦知识容量与计算成本。

打破密集瓶颈:Voyage-4-large如何利用混合专家(MoE)进行扩展

Voyage AI
Voyage AI · 2026-03-03T22:26:12Z

上一篇文章《MoE环游记:6、最优分配促均衡》中,我们通过求解如下最优分配问题来实现负载均衡\begin{equation}\max_{x_{i,j}\in\{0,1\}} \sum_{i,j}...

MoE环游记:7、动态激活极简解

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2026-02-23T02:31:00Z

我们知道,负载均衡(Load Balance)是MoE架构中基本且关键的一环,直接影响模型的效率和性能。本系列已经有两篇文章介绍了两种实现负载均衡的主流思路,分别是《MoE环游记:2、不患寡而患...

MoE环游记:6、最优分配促均衡

科学空间|Scientific Spaces
科学空间|Scientific Spaces · 2026-02-22T02:15:00Z
众智FlagOS适配千问Qwen3.5 397B MoE模型多芯版统一发布,下载可用

AI短名单是对长篇文章的简要概述,旨在提炼出核心信息。

众智FlagOS适配千问Qwen3.5 397B MoE模型多芯版统一发布,下载可用

机器之心
机器之心 · 2026-02-20T13:12:01Z
美团发布基于 N-gram 全新模型:嵌入扩展新范式,实现轻量化 MoE 高效进化

美团 LongCat 团队推出了 LongCat-Flash-Lite,这是一款轻量化的 MoE 模型,参数量为685亿,推理时激活29亿至45亿参数。该模型在智能体和编程任务中表现优异,尤其在复杂工具使用和代码修复方面,现已开源,欢迎开发者体验。

美团发布基于 N-gram 全新模型:嵌入扩展新范式,实现轻量化 MoE 高效进化

美团技术团队
美团技术团队 · 2026-02-10T00:00:00Z
MoE比你想象的更强大:基于RoE的超并行推理扩展

本文介绍了一种名为RoE的超并行推理框架,旨在提升大语言模型(LLM)在标记级别的预测质量。RoE通过动态组合多个专家模型,利用受控随机性为每个标记采样多个专家,从而实现更准确的预测。此外,该方法在计算效率上进行了优化,使得7B MoE模型的性能可与10.5B MoE模型相媲美,同时减少了30%的计算需求。

MoE比你想象的更强大:基于RoE的超并行推理扩展

Apple Machine Learning Research
Apple Machine Learning Research · 2026-01-12T00:00:00Z
超DeepEP两倍!无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈,专为Agent爆发设计

AI短名单是对长篇文章的简要概述,旨在提炼出核心信息。

超DeepEP两倍!无问芯穹FUSCO以「空中变阵」突破MoE通信瓶颈,专为Agent爆发设计

机器之心
机器之心 · 2025-12-31T09:56:00Z
Mamba作者团队提出SonicMoE:一个Token舍入,让MoE训练速度提升近2倍

AI短名单是对人工智能领域中重要项目或技术的简要概述,旨在突出其关键特征和影响。

Mamba作者团队提出SonicMoE:一个Token舍入,让MoE训练速度提升近2倍

机器之心
机器之心 · 2025-12-19T07:02:33Z

OpenAI开源的新模型采用Circuit Sparsity技术,使99.9%的权重为零,提升了模型的可解释性。通过严格的连接约束,简化了计算过程,解决了传统模型的黑箱问题。尽管计算成本较高,但未来有望实现更复杂的推理。

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

量子位
量子位 · 2025-12-14T06:27:09Z
MoE-PHDS:一个用于灵活运行时稀疏性的MoE检查点

本文介绍了MoE-PHDS(后hoc声明稀疏性),一种轻量级的SFT方法,允许在推理时灵活调整稀疏性,而无需更换模型或架构。PHDS通过在不同稀疏水平上训练,提高了模型的准确性和延迟可预测性,简化了MoE的部署,并提升了跨稀疏性的一致性。实验结果显示,PHDS在多个操作点上优于传统模型。

MoE-PHDS:一个用于灵活运行时稀疏性的MoE检查点

Apple Machine Learning Research
Apple Machine Learning Research · 2025-12-11T00:00:00Z
华为放出「准万亿级MoE推理」大招,两大杀手级优化技术直接开源

抱歉,您提供的文本内容过于简短,无法进行有效总结。请提供更详细的文章内容。

华为放出「准万亿级MoE推理」大招,两大杀手级优化技术直接开源

机器之心
机器之心 · 2025-11-28T07:32:42Z
哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA

抱歉,提供的文本内容不足以进行总结。请提供更详细的文章内容。

哈工大深圳团队推出Uni-MoE-2.0-Omni:全模态理解、推理及生成新SOTA

机器之心
机器之心 · 2025-11-25T09:57:00Z
DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均

抱歉,提供的文本内容过于简短,无法有效总结。请提供更详细的文章内容。

DeepSeek悄悄开源LPLB:用线性规划解决MoE负载不均

机器之心
机器之心 · 2025-11-20T15:54:03Z
  • <<
  • <
  • 1 (current)
  • 2
  • 3
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码