小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
NVIDIA与Mistral AI合作加速新一代开放模型的推出

Mistral AI发布了Mistral 3系列模型,优化了NVIDIA平台,支持云到边缘的分布式智能。Mistral Large 3采用混合专家模型,具备41B活跃参数和675B总参数,提供高效能和准确性,适用于企业AI,支持快速部署和定制,推动AI创新。

NVIDIA与Mistral AI合作加速新一代开放模型的推出

NVIDIA Blog
NVIDIA Blog · 2025-12-02T18:00:30Z
美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代

LongCat-Flash-Chat正式发布并开源,采用混合专家模型架构,参数总量560B,激活参数27B,性能优越且推理速度快,适合复杂智能体应用。评测显示其在智能体工具使用和指令遵循方面表现卓越,支持高效部署,开源地址为GitHub和官网。

美团正式发布并开源 LongCat-Flash-Chat,动态计算开启高效 AI 时代

美团技术团队
美团技术团队 · 2025-09-01T00:00:00Z
OpenAI 突然开源!GPT-OSS 深度评测,中美 AI 竞争升级,谁能笑到最后?AI 界的“田忌赛马”!详解中国“全家桶”式开源,如何对决 OpenAI 的精准出牌?

OpenAI发布了开源模型GPT-OSS,包含20B和120B两种参数,采用混合专家模型,支持128K的上下文。这一举措加剧了中美AI竞争,展示了不同的开源策略。中国的开源模型如千问和DeepSeek直接开放最新版本,与美国的“开小闭大”策略形成对比。两国在AI领域的博弈将持续,未来发展值得关注。

OpenAI 突然开源!GPT-OSS 深度评测,中美 AI 竞争升级,谁能笑到最后?AI 界的“田忌赛马”!详解中国“全家桶”式开源,如何对决 OpenAI 的精准出牌?

硕鼠的博客站
硕鼠的博客站 · 2025-08-08T01:02:14Z
MoMoE:内存优化的专家混合模型

MoMoE(内存优化的专家混合模型)通过结合Triton内核和优化内存布局,显著提高了混合专家模型的训练和推理速度及内存效率。与现有开源实现相比,MoMoE在前向和反向传递中具有更高的吞吐量和更低的内存消耗,适合大规模训练和推理。该实现允许用户灵活选择内存与计算的权衡,推动了专家混合模型的高效应用。

MoMoE:内存优化的专家混合模型

Nathan Chen
Nathan Chen · 2025-07-25T00:00:00Z

华为提出OmniPlacement方法,通过优化混合专家模型中的专家分配,降低推理延迟约10%,提升吞吐量。该方法动态调整专家优先级、冗余部署和实时调度,解决专家负载不均的问题,确保高负载下系统稳定运行,并计划开源。

华为:让DeepSeek的“专家们”动起来,推理延迟降10%!

量子位
量子位 · 2025-05-20T05:36:27Z

本研究提出了一种测试时间模型合并(TTMM)方法,旨在解决混合专家模型因训练和推理成本高而只能使用少量专家的问题。TTMM显著增加了专家数量,并且测试时间比传统方法快100倍以上,为大规模测试提供了经济有效的解决方案。

Mixture of Local Experts: Achieving Essentially Free Test-Time Training through Model Merging

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-20T00:00:00Z
NEXA-MOE:一种高效强大的AI,用于在资源紧张的情况下进行科学发现

NEXA-MOE是一种高效的混合专家模型,参数仅1.1亿,能够在物理、生物和材料科学领域进行假设生成和方法设计。其模块化架构通过智能路由优化资源使用,在有限硬件上实现卓越性能,展示了在资源受限环境中构建高效AI系统的可能性。

NEXA-MOE:一种高效强大的AI,用于在资源紧张的情况下进行科学发现

DEV Community
DEV Community · 2025-05-12T04:00:00Z

本研究提出了Compass-v2,一种轻量级混合专家模型,旨在提升东南亚低资源语言和电子商务领域的模型性能。通过构建高质量数据集,该模型在多语言和电子商务应用中表现优异,并降低了推理成本。

Compass-V2 Technical Report

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-22T00:00:00Z
EC-DIT:通过自适应专家选择路由扩展扩散变换器

本文提出了一种新的混合专家模型(EC-DIT),通过优化专家选择路由以适应不同文本图像的复杂度。EC-DIT可扩展至970亿参数,显著提升训练收敛性和生成质量,并在文本对齐评估中获得71.68%的最佳GenEval分数。

EC-DIT:通过自适应专家选择路由扩展扩散变换器

Apple Machine Learning Research
Apple Machine Learning Research · 2025-04-15T00:00:00Z
Llama 4悄然发布震撼不足?对比DeepSeek与千问,Meta的MOE架构和千万级上下文能否挽回开源领导地位,避免被超级APP浪潮抛弃?

Llama 4发布了三个版本,支持1,000万TOKEN的长上下文,并采用混合专家模型。尽管中文能力有所提升,但与主流模型相比进步不明显,市场反响平淡。开源模型竞争激烈,千问和DeepSeek等已具备可用性,Meta需寻找新应用场景以保持竞争力。

Llama 4悄然发布震撼不足?对比DeepSeek与千问,Meta的MOE架构和千万级上下文能否挽回开源领导地位,避免被超级APP浪潮抛弃?

硕鼠的博客站
硕鼠的博客站 · 2025-04-07T00:45:28Z

本研究提出了一种新的混合专家模型框架,通过分段分配嵌入维度来提升计算效率,并提供了在特定架构下识别最佳专家数量的闭式表达式,为大规模模型设计提供指导。

理论上的变压器增强节段混合专家框架的最优扩展法则以提高效率

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-26T00:00:00Z

本研究提出了一种新型混合专家模型Race-DiT,采用“专家竞赛”路由策略,动态分配专家以提升扩散模型的性能和扩展性。实验结果表明,该模型在ImageNet数据集上表现优异。

Expert Competition: A Flexible Routing Strategy for Scaling Hybrid Expert Diffusion Transformers

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-20T00:00:00Z

本研究提出了COMET系统,通过数据依赖性分析和任务重调度,优化了混合专家模型在分布式环境中的通信开销,实现了计算与通信的重叠,从而显著加速了模型执行。

COMET: Fine-Grained Computation-Communication Overlap for Mixture-of-Experts

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-27T00:00:00Z
一次推理解决复合问题:基于MoE的大语言模型知识模块可扩展融合推理架构MeteoRA

MeteoRA是一个高效的多任务嵌入架构,通过LoRA适配器和混合专家模型(MoE)提升大语言模型性能,支持自主选择和切换LoRA适配器,显著增强复合任务处理能力,实验结果显示其在多项任务中表现优异。

一次推理解决复合问题:基于MoE的大语言模型知识模块可扩展融合推理架构MeteoRA

机器之心
机器之心 · 2025-02-22T05:56:48Z
阿里云通义大模型新技术:MoE模型训练专家平衡的关键细节

AIxiv专栏报道了一项新研究,提出通过轻量通信将混合专家模型(MoE)的局部均衡转变为全局均衡,从而显著提升模型性能和专家特异性。这一方法有效解决了MoE训练中的负载均衡问题,促进了专家的分化,具有重要的学术价值。

阿里云通义大模型新技术:MoE模型训练专家平衡的关键细节

机器之心
机器之心 · 2025-01-24T07:13:49Z
通过全局负载均衡提升混合专家模型的性能和特异化程度

混合专家模型(MoE)通过动态激活参数提高效率,但训练中存在专家激活不均衡的问题。为解决此问题,引入全局负载均衡(LBL),显著提升模型性能和专家特异性。实验表明,扩大均衡范围可改善模型效果,局部均衡的适度添加也能提高效率。这项研究为MoE模型优化提供了新视角,助力更大规模的模型训练。

通过全局负载均衡提升混合专家模型的性能和特异化程度

Blog on Qwen
Blog on Qwen · 2025-01-20T16:00:03Z
Deepseek V3搅动AI格局!从细颗粒度专家到多头潜在注意力机制深度剖析

Deepseek V3是一种先进的混合专家模型(MoE),通过细粒度专家和多头潜在注意力机制,显著降低训练和推理成本。与传统模型相比,Deepseek V3在多样化任务处理上表现优异,适合资源有限的环境。尽管存在存储需求高和微调复杂等缺点,但其开源特性吸引了众多开发者。

Deepseek V3搅动AI格局!从细颗粒度专家到多头潜在注意力机制深度剖析

硕鼠的博客站
硕鼠的博客站 · 2025-01-07T13:25:33Z

本研究提出了MoE-Lightning系统,旨在高效部署混合专家模型(MoE)于内存受限的GPU上。通过引入CPU-GPU-I/O流水线调度方法CGOPipe和性能模型HRM,该系统显著提高了资源利用率和吞吐量,超越了现有推理系统。

MoE Lightweight: High-Throughput MoE Inference on Memory-Constrained GPUs

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-18T00:00:00Z

本研究提出了一种新攻击方式,利用混合专家模型的安全漏洞,通过将对抗者与受害者的查询安排在同一批次中,有效提取受害者的提示信息。实验结果表明,仅需O({VM}^2)次查询即可获取完整提示。

从专家混合模型中窃取用户提示

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本研究提出了一种新的混合专家模型方法,称为笛卡尔乘积路由(CartesianMoE),解决了专家之间知识共享不足的问题。实验结果表明,该方法在困惑度和下游任务性能上优于传统模型,并增强了专家路由的鲁棒性。

CartesianMoE:通过笛卡尔乘积路由提升专家之间的知识共享

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-21T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码