中国最大开源MoE模型,255B参数无条件免费商用,元象发布

💡 原文中文,约2900字,阅读约需7分钟。
📝

内容提要

中国最大开源MoE模型XVERSE-MoE-A36B总参数255B,激活参数36B,训练时间减少30%,推理性能提升100%。该模型效果超越多个同类模型,包括国内千亿MoE模型Skywork-MoE、Mixtral-8x22B和Grok-1-A86B。MoE是混合专家模型架构,能在扩大模型规模时保持性能最大化。元象的MoE模型全部开源,无条件免费商用。

🎯

关键要点

  • 中国最大开源MoE模型XVERSE-MoE-A36B,总参数255B,激活参数36B。
  • 训练时间减少30%,推理性能提升100%。
  • 模型效果超越多个同类模型,包括Skywork-MoE、Mixtral-8x22B和Grok-1-A86B。
  • MoE架构能在扩大模型规模时保持性能最大化,减少计算成本。
  • 元象的MoE模型全部开源,无条件免费商用。
  • XVERSE-MoE-A36B采用更细粒度的专家设计,提高模型灵活性与性能。
  • 共享专家和非共享专家的设计减少知识冗余。
  • 4D拓扑架构优化计算效率,减少通信负担。
  • 专家路由与预丢弃策略减少不必要的计算和传输。
  • 动态数据切换提升模型的语料覆盖面和泛化能力。
  • 学习率调度策略优化模型在数据切换后的学习速度。
  • 元象MoE模型与Dense模型相比,训练时间减少30%,推理性能提升100%。
  • 元象基于MoE模型研发的Saylo应用在港台火爆,下载量名列前茅。
  • 元象成为全国最早获得生成式人工智能服务管理备案的大模型之一。
  • 与腾讯音乐合作推出lyraXVERSE,升级音乐助手的能力。
➡️

继续阅读