腾讯发最大开源MoE模型,3890亿参数免费可商用,跑分超Llama3.1

💡 原文中文,约3600字,阅读约需9分钟。
📝

内容提要

腾讯发布了开源MoE模型Hunyuan-Large,参数达3890亿,支持256k上下文长度,免费商用。该模型在数学能力和长文本处理上表现优异,采用混合路由策略和高质量合成数据,提升推理效率和训练稳定性。

🎯

关键要点

  • 腾讯发布了开源MoE模型Hunyuan-Large,参数达3890亿,支持256k上下文长度,免费商用。
  • Hunyuan-Large在数学能力和长文本处理上表现优异,跑分超过Llama 3.1。
  • 模型采用混合路由策略和高质量合成数据,提升推理效率和训练稳定性。
  • 开源版本包括预训练模型、微调模型和FP8量化的微调模型。
  • 技术报告中计算了MoE的Scaling Law公式,揭示了模型的计算预算。
  • Hunyuan-Large采用共享专家和特殊专家的混合路由策略,保持负载均衡。
  • 高质量合成数据的生成流程包括指令生成、指令进化、回答生成和回答过滤。
  • 模型通过分阶段训练和优化位置编码来提升长文本处理能力。
  • 推理效率通过KV Cache压缩技术显著提升,内存占用降低约95%。
  • 后训练策略包括监督微调和人类反馈强化学习,以增强模型能力和人类对齐程度。
  • 腾讯计划逐步开源中小型号的模型,满足个人开发者需求。
➡️

继续阅读