量子位 ·

颜水成袁粒提出新一代MoE架构：专家吞吐速度最高提升2.1倍！

💡 原文中文，约3800字，阅读约需9分钟。

📝

内容提要

颜水成和袁粒团队提出了新架构MoE++，通过引入“零计算量专家”提升性能和速度。MoE++允许每个Token使用不同数量的FFN专家，降低计算成本，提高复杂Token处理能力。实验表明，MoE++在相同模型大小下性能优于传统MoE，专家吞吐速度提升1.1到2.1倍。模型权重已开源，展示了不同任务中的专家负载分布差异。

🎯

关键要点

MoE++架构由颜水成和袁粒团队提出，性能和速度显著提升。
引入“零计算量专家”，降低计算成本，提高复杂Token处理能力。
MoE++允许每个Token使用可变数量的FFN专家，甚至可以跳过MoE层。
实验结果显示，MoE++在相同模型大小下性能优于传统MoE，专家吞吐速度提升1.1到2.1倍。
MoE++引入三种零计算量专家：Zero专家、Copy专家和Constant专家。
灵活的计算量分配优化了计算资源，使更多FFN专家专注于复杂Token。
稳定的路由设计通过前一层的路由分数提升了专家选择的稳定性。
MoE++具有更低的理论计算复杂度，实验结果表明其优于普通MoE。
专家负载分布在不同任务中存在显著差异，Zero专家在简单任务中激活次数更高。
MoE++模型的权重已开源，展示了不同任务中的专家负载分布差异。

🏷️

继续阅读

突破零样本 TTS 音色克隆上限：LongCat-AudioDiT 的声音克隆艺术
美团LongCat团队发布了LongCat-AudioDiT模型，采用全新的端到端文本转语音技术，减少信息损失。该模型在Seed基准测试中表现优异，取得最...
Pi-hole原理深度解析：用DNS重写广告分发生态实现全网设备无广告体验
Pi-hole通过DNS拦截广告和追踪请求，为全网设备提供无广告体验。它维护域名黑名单，阻止广告和恶意网站，运行成本低且性能优越。开源特性增强用户信任，提...
本月DSF成员 - Rob Hudson
Rob Hudson是Django社区的成员，创建了django-debug-toolbar工具，并支持内容安全策略（CSP）。他是一名后端Python工...
Hermes Agent 使用指南
Hermes Agent是Nous Research开发的自我改进AI助手，具备持久记忆和自动技能进化能力，支持多种工具和平台，能够执行命令和浏览器操作。...
横扫全球15项SOTA！高德首个面向AGI的全栈具身技术体系大公开
高德推出了面向AGI的全栈具身技术体系ABot，利用地图数据构建物理优先的机器人操作系统。ABot-World通过重建物理世界生成高质量训练数据，解决机器...
微软正在开发新版Windows 11开始菜单提升性能和让用户高度自定义
微软正在开发新版 Windows 11 开始菜单，旨在提升响应速度和用户自定义功能。新菜单将采用 WinUI3 原生架构，改善性能，确保在高负载下也能快速...

颜水成袁粒提出新一代MoE架构：专家吞吐速度最高提升2.1倍！

内容提要

关键要点

标签

继续阅读