小红花·文摘

香港科技大学等提出增量天气预报模型VA-MoE，参数精简 75% 仍达 SOTA 性能

HyperAI超神经 ·

本研究提出了一种非竞争博弈方法，克服了黑箱生成AI环境中构建专家混合模型的局限性。通过反馈机制，我们的“专有联合学习”算法显著提升了时间序列预测的准确性。

基于黑箱编码器的专有代理混合模型的在线联合学习

BriefGPT - AI 论文速递 ·

本研究质疑专家混合模型（MoE）路由器对语义特征的依赖，强调位置标记信息在路由决策中的重要性，并通过实证分析进行了验证。

Spatial Structure of Mixture of Experts in Transformers

BriefGPT - AI 论文速递 ·

本研究探讨了神经网络对称性减少对深度集成方法和专家混合模型性能的影响，提出了插值专家混合方法，显示非对称神经网络在扩大集成规模方面的优势，但对MoE与MoIE架构的影响尚无明确结论。

减少对称性对深度集成和专家混合性能的实证影响

BriefGPT - AI 论文速递 ·

本文探讨了专家混合模型（MoEs）训练中的负载平衡损失（LBL）实现，指出现有微批次策略限制了专家的专业化。提出了一种新的全局批次计算LBL的方法，通过额外的通信步骤同步专家选择频率，显著提升了模型的预训练效果和下游任务性能。

Demons in the Details: Implementing Load Balancing Loss in Training Specialized Mixture-of-Expert Models

BriefGPT - AI 论文速递 ·

专家混合模型 (MoE) 详解：Mixtral 8X7B、DBRX 和 Deepseek-v2 的架构与应用

逐水寻源 ·

本研究探讨了专家混合模型在图像分类中的应用，发现适度激活参数能取得最佳效果，过多则会导致效果减弱，强调了模型设计中的平衡点。

Mixture of Experts in Image Classification: What's the Optimal Balance?

BriefGPT - AI 论文速递 ·

本研究提出了一种深度自适应专家混合模型（DA-MoE），旨在解决图神经网络在不同尺度图数据中的深度敏感性问题，从而显著提升图、节点和链接级别的分析性能。

DA-MoE：通过专家混合模型解决图级分析中的深度敏感性问题

BriefGPT - AI 论文速递 ·

本研究提出了一种名为“升级指令调优”（UpIT）的方法，解决将稠密模型转化为专家混合模型（MoE）时的数据需求问题。通过利用稠密模型的中间检查点灵活扩展专家数量，并结合遗传算法与参数合并，确保专家多样性。实验结果表明，UpIT在不同数据规模和设置下提高了数据效率和专家多样性。

通过参数合并将稠密模型的指令微调升级为专家混合模型

BriefGPT - AI 论文速递 ·

本研究提出了一种新的交通速度预测模型，使用专家混合模型捕捉不同的交通模式。研究发现该模型在真实路网上的预测误差较低，能有效解释时间依赖性和变量重要性。

可解释的专家混合模型在发生和非发生条件下的时间序列预测

BriefGPT - AI 论文速递 ·

本研究结合知识蒸馏和专家混合模型开发了高效的多语言语言模型，结果表明两种知识蒸馏方法性能相似，自适应α方法略微改善。模块化专家混合模型架构评估表明预训练语言专家和联合专家嵌入训练性能相似，引入公共专家可以改善模型性能。灾难性遗忘研究表明顺序训练导致显著遗忘，而单次训练和专家混合模型方法可以减轻此问题。本研究提供了开源资源。

MoMa: 以多模态感知专家的混合方式高效进行早期融合预训练

BriefGPT - AI 论文速递 ·

这篇综述论文调查了生成人工智能领域的发展现状，重点关注了专家混合模型、多模态学习和人工通用智能的影响。它评估了这些技术的挑战和应用，并强调了它们在医疗、金融和教育等领域的潜力。论文还讨论了人工智能主题和预印本对学术交流的影响，强调了道德和以人为本的方法的重要性，并提出了未来研究策略。

物联网车联网中混合专家模型与多模态生成 AI 的集成：综述

BriefGPT - AI 论文速递 ·

这篇综述论文调查了生成人工智能领域的发展现状，关注专家混合模型、多模态学习和人工通用智能的影响。它评估了技术的挑战和应用，并强调了在医疗、金融和教育等领域的潜力。它还讨论了人工智能对同行评议和学术交流的影响，指出了道德和以人为本的方法的重要性，并提出了未来研究策略。

模型开放性框架：推动人工智能的可复制性、透明度和可用性的完整性与开放性

BriefGPT - AI 论文速递 ·

这篇综述论文调查了生成人工智能领域的发展现状，关注专家混合模型、多模态学习和人工通用智能的影响。它评估了技术的挑战和应用，并强调了在医疗、金融和教育等领域的潜力。它还讨论了人工智能的道德和以人为本的方法，并提出了未来研究策略。

从 Google Gemini 到 OpenAI Q*(Q-Star): 改变生成性人工智能（AI）研究领域的调查

BriefGPT - AI 论文速递 ·

Mistral发布了Mixtral 8x7B，一种具有开放权重的高质量稀疏专家混合模型。Mixtral-8x7b-32kseqlen、DiscoLM-mixtral-8x7b-v2已上线。Mixtral优化了Together推理引擎，速度高达100个token/秒，价格为0.0006美元/1K代币。Mixtral在基准测试中优于Llama 2 70B，匹配或优于GPT3.5。它处理32k令牌的上下文，处理多种语言，代码生成性能强大。快速排序是一种快速高效的排序算法，时间复杂度为O(n log n)。

香港科技大学等提出增量天气预报模型VA-MoE，参数精简 75% 仍达 SOTA 性能

基于黑箱编码器的专有代理混合模型的在线联合学习

Spatial Structure of Mixture of Experts in Transformers

减少对称性对深度集成和专家混合性能的实证影响

Demons in the Details: Implementing Load Balancing Loss in Training Specialized Mixture-of-Expert Models

专家混合模型 (MoE) 详解：Mixtral 8X7B、DBRX 和 Deepseek-v2 的架构与应用

Mixture of Experts in Image Classification: What's the Optimal Balance?

DA-MoE：通过专家混合模型解决图级分析中的深度敏感性问题

通过参数合并将稠密模型的指令微调升级为专家混合模型

可解释的专家混合模型在发生和非发生条件下的时间序列预测

MoMa: 以多模态感知专家的混合方式高效进行早期融合预训练

物联网车联网中混合专家模型与多模态生成 AI 的集成：综述

模型开放性框架：推动人工智能的可复制性、透明度和可用性的完整性与开放性

从 Google Gemini 到 OpenAI Q*(Q-Star): 改变生成性人工智能（AI）研究领域的调查

Mistral的Mixtral 8x7B在线测试网址

DAMEX：面向混合数据集的数据集感知专家混合模型用于可视化理解

基于统计的 Top-K 稀疏 Softmax 门控混合专家