腾讯发最大开源MoE模型,3890亿参数免费可商用,跑分超Llama3.1
💡
原文中文,约3600字,阅读约需9分钟。
📝
内容提要
腾讯发布了开源MoE模型Hunyuan-Large,参数达3890亿,支持256k上下文长度,免费商用。该模型在数学能力和长文本处理上表现优异,采用混合路由策略和高质量合成数据,提升推理效率和训练稳定性。
🎯
关键要点
-
腾讯发布了开源MoE模型Hunyuan-Large,参数达3890亿,支持256k上下文长度,免费商用。
-
Hunyuan-Large在数学能力和长文本处理上表现优异,跑分超过Llama 3.1。
-
模型采用混合路由策略和高质量合成数据,提升推理效率和训练稳定性。
-
开源版本包括预训练模型、微调模型和FP8量化的微调模型。
-
技术报告中计算了MoE的Scaling Law公式,揭示了模型的计算预算。
-
Hunyuan-Large采用共享专家和特殊专家的混合路由策略,保持负载均衡。
-
高质量合成数据的生成流程包括指令生成、指令进化、回答生成和回答过滤。
-
模型通过分阶段训练和优化位置编码来提升长文本处理能力。
-
推理效率通过KV Cache压缩技术显著提升,内存占用降低约95%。
-
后训练策略包括监督微调和人类反馈强化学习,以增强模型能力和人类对齐程度。
-
腾讯计划逐步开源中小型号的模型,满足个人开发者需求。
❓
延伸问答
Hunyuan-Large模型的参数有多少?
Hunyuan-Large模型的参数达3890亿。
Hunyuan-Large模型支持的上下文长度是多少?
Hunyuan-Large模型支持256k的上下文长度。
Hunyuan-Large模型在数学能力上表现如何?
Hunyuan-Large在数学能力上表现优异,跑分超过Llama 3.1。
Hunyuan-Large模型采用了什么样的路由策略?
Hunyuan-Large采用了共享专家和特殊专家的混合路由策略。
腾讯计划如何支持个人开发者使用Hunyuan-Large模型?
腾讯计划逐步开源中小型号的模型,以满足个人开发者的需求。
Hunyuan-Large模型的推理效率如何提升?
推理效率通过KV Cache压缩技术显著提升,内存占用降低约95%。
➡️