腾讯发最大开源MoE模型,3890亿参数免费可商用,跑分超Llama3.1

💡 原文中文,约3600字,阅读约需9分钟。
📝

内容提要

腾讯发布了开源MoE模型Hunyuan-Large,参数达3890亿,支持256k上下文长度,免费商用。该模型在数学能力和长文本处理上表现优异,采用混合路由策略和高质量合成数据,提升推理效率和训练稳定性。

🎯

关键要点

  • 腾讯发布了开源MoE模型Hunyuan-Large,参数达3890亿,支持256k上下文长度,免费商用。

  • Hunyuan-Large在数学能力和长文本处理上表现优异,跑分超过Llama 3.1。

  • 模型采用混合路由策略和高质量合成数据,提升推理效率和训练稳定性。

  • 开源版本包括预训练模型、微调模型和FP8量化的微调模型。

  • 技术报告中计算了MoE的Scaling Law公式,揭示了模型的计算预算。

  • Hunyuan-Large采用共享专家和特殊专家的混合路由策略,保持负载均衡。

  • 高质量合成数据的生成流程包括指令生成、指令进化、回答生成和回答过滤。

  • 模型通过分阶段训练和优化位置编码来提升长文本处理能力。

  • 推理效率通过KV Cache压缩技术显著提升,内存占用降低约95%。

  • 后训练策略包括监督微调和人类反馈强化学习,以增强模型能力和人类对齐程度。

  • 腾讯计划逐步开源中小型号的模型,满足个人开发者需求。

延伸问答

Hunyuan-Large模型的参数有多少?

Hunyuan-Large模型的参数达3890亿。

Hunyuan-Large模型支持的上下文长度是多少?

Hunyuan-Large模型支持256k的上下文长度。

Hunyuan-Large模型在数学能力上表现如何?

Hunyuan-Large在数学能力上表现优异,跑分超过Llama 3.1。

Hunyuan-Large模型采用了什么样的路由策略?

Hunyuan-Large采用了共享专家和特殊专家的混合路由策略。

腾讯计划如何支持个人开发者使用Hunyuan-Large模型?

腾讯计划逐步开源中小型号的模型,以满足个人开发者的需求。

Hunyuan-Large模型的推理效率如何提升?

推理效率通过KV Cache压缩技术显著提升,内存占用降低约95%。

➡️

继续阅读