中国最大开源MoE模型,255B参数无条件免费商用,元象发布
💡
原文中文,约2900字,阅读约需7分钟。
📝
内容提要
中国最大开源MoE模型XVERSE-MoE-A36B总参数255B,激活参数36B,训练时间减少30%,推理性能提升100%。该模型效果超越多个同类模型,包括国内千亿MoE模型Skywork-MoE、Mixtral-8x22B和Grok-1-A86B。MoE是混合专家模型架构,能在扩大模型规模时保持性能最大化。元象的MoE模型全部开源,无条件免费商用。
🎯
关键要点
- 中国最大开源MoE模型XVERSE-MoE-A36B,总参数255B,激活参数36B。
- 训练时间减少30%,推理性能提升100%。
- 模型效果超越多个同类模型,包括Skywork-MoE、Mixtral-8x22B和Grok-1-A86B。
- MoE架构能在扩大模型规模时保持性能最大化,减少计算成本。
- 元象的MoE模型全部开源,无条件免费商用。
- XVERSE-MoE-A36B采用更细粒度的专家设计,提高模型灵活性与性能。
- 共享专家和非共享专家的设计减少知识冗余。
- 4D拓扑架构优化计算效率,减少通信负担。
- 专家路由与预丢弃策略减少不必要的计算和传输。
- 动态数据切换提升模型的语料覆盖面和泛化能力。
- 学习率调度策略优化模型在数据切换后的学习速度。
- 元象MoE模型与Dense模型相比,训练时间减少30%,推理性能提升100%。
- 元象基于MoE模型研发的Saylo应用在港台火爆,下载量名列前茅。
- 元象成为全国最早获得生成式人工智能服务管理备案的大模型之一。
- 与腾讯音乐合作推出lyraXVERSE,升级音乐助手的能力。
🏷️
标签
➡️