小红花·文摘 - 小红花技术领袖俱乐部

NVIDIA与Mistral AI合作加速新一代开放模型的推出

NVIDIA与Mistral AI合作加速新一代开放模型的推出

NVIDIA Blog ·

美团正式发布并开源 LongCat-Flash-Chat，动态计算开启高效 AI 时代

美团技术团队 ·

OpenAI 突然开源！GPT-OSS 深度评测，中美 AI 竞争升级，谁能笑到最后？AI 界的“田忌赛马”！详解中国“全家桶”式开源，如何对决 OpenAI 的精准出牌？

OpenAI 突然开源！GPT-OSS 深度评测，中美 AI 竞争升级，谁能笑到最后？AI 界的“田忌赛马”！详解中国“全家桶”式开源，如何对决 OpenAI 的精准出牌？

硕鼠的博客站 ·

MoMoE：内存优化的专家混合模型

MoMoE：内存优化的专家混合模型

Nathan Chen ·

华为提出OmniPlacement方法，通过优化混合专家模型中的专家分配，降低推理延迟约10%，提升吞吐量。该方法动态调整专家优先级、冗余部署和实时调度，解决专家负载不均的问题，确保高负载下系统稳定运行，并计划开源。

华为：让DeepSeek的“专家们”动起来，推理延迟降10%！

量子位 ·

本研究提出了一种测试时间模型合并（TTMM）方法，旨在解决混合专家模型因训练和推理成本高而只能使用少量专家的问题。TTMM显著增加了专家数量，并且测试时间比传统方法快100倍以上，为大规模测试提供了经济有效的解决方案。

Mixture of Local Experts: Achieving Essentially Free Test-Time Training through Model Merging

BriefGPT - AI 论文速递 ·

NEXA-MOE：一种高效强大的AI，用于在资源紧张的情况下进行科学发现

NEXA-MOE：一种高效强大的AI，用于在资源紧张的情况下进行科学发现

DEV Community ·

本研究提出了Compass-v2，一种轻量级混合专家模型，旨在提升东南亚低资源语言和电子商务领域的模型性能。通过构建高质量数据集，该模型在多语言和电子商务应用中表现优异，并降低了推理成本。

Compass-V2 Technical Report

BriefGPT - AI 论文速递 ·

EC-DIT：通过自适应专家选择路由扩展扩散变换器

EC-DIT：通过自适应专家选择路由扩展扩散变换器

Apple Machine Learning Research ·

Llama 4悄然发布震撼不足？对比DeepSeek与千问，Meta的MOE架构和千万级上下文能否挽回开源领导地位，避免被超级APP浪潮抛弃？

Llama 4悄然发布震撼不足？对比DeepSeek与千问，Meta的MOE架构和千万级上下文能否挽回开源领导地位，避免被超级APP浪潮抛弃？

硕鼠的博客站 ·

本研究提出了一种新的混合专家模型框架，通过分段分配嵌入维度来提升计算效率，并提供了在特定架构下识别最佳专家数量的闭式表达式，为大规模模型设计提供指导。

理论上的变压器增强节段混合专家框架的最优扩展法则以提高效率

BriefGPT - AI 论文速递 ·

本研究提出了一种新型混合专家模型Race-DiT，采用“专家竞赛”路由策略，动态分配专家以提升扩散模型的性能和扩展性。实验结果表明，该模型在ImageNet数据集上表现优异。

Expert Competition: A Flexible Routing Strategy for Scaling Hybrid Expert Diffusion Transformers

BriefGPT - AI 论文速递 ·

本研究提出了COMET系统，通过数据依赖性分析和任务重调度，优化了混合专家模型在分布式环境中的通信开销，实现了计算与通信的重叠，从而显著加速了模型执行。

COMET: Fine-Grained Computation-Communication Overlap for Mixture-of-Experts

BriefGPT - AI 论文速递 ·

一次推理解决复合问题：基于MoE的大语言模型知识模块可扩展融合推理架构MeteoRA

一次推理解决复合问题：基于MoE的大语言模型知识模块可扩展融合推理架构MeteoRA

机器之心 ·

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

阿里云通义大模型新技术：MoE模型训练专家平衡的关键细节

机器之心 ·

通过全局负载均衡提升混合专家模型的性能和特异化程度

通过全局负载均衡提升混合专家模型的性能和特异化程度

Blog on Qwen ·

Deepseek V3搅动AI格局！从细颗粒度专家到多头潜在注意力机制深度剖析

Deepseek V3搅动AI格局！从细颗粒度专家到多头潜在注意力机制深度剖析

硕鼠的博客站 ·

本研究提出了MoE-Lightning系统，旨在高效部署混合专家模型（MoE）于内存受限的GPU上。通过引入CPU-GPU-I/O流水线调度方法CGOPipe和性能模型HRM，该系统显著提高了资源利用率和吞吐量，超越了现有推理系统。

MoE Lightweight: High-Throughput MoE Inference on Memory-Constrained GPUs

BriefGPT - AI 论文速递 ·

本研究提出了一种新攻击方式，利用混合专家模型的安全漏洞，通过将对抗者与受害者的查询安排在同一批次中，有效提取受害者的提示信息。实验结果表明，仅需O({VM}^2)次查询即可获取完整提示。

从专家混合模型中窃取用户提示

BriefGPT - AI 论文速递 ·

本研究提出了一种新的混合专家模型方法，称为笛卡尔乘积路由（CartesianMoE），解决了专家之间知识共享不足的问题。实验结果表明，该方法在困惑度和下游任务性能上优于传统模型，并增强了专家路由的鲁棒性。

CartesianMoE：通过笛卡尔乘积路由提升专家之间的知识共享

BriefGPT - AI 论文速递 ·