💡
原文中文,约4700字,阅读约需12分钟。
📝
内容提要
腾讯混元团队推出了基于混合专家(MoE)架构的Hunyuan-Large模型,参数量达到389B,支持多种应用场景。该模型在多项评测中表现优异,采用高效路由策略和合成数据,提升了推理速度和长文处理能力,已开源,适用于企业和开发者。
🎯
关键要点
- 腾讯混元团队推出基于混合专家(MoE)架构的Hunyuan-Large模型,参数量达到389B,支持多种应用场景。
- Hunyuan-Large在多项评测中表现优异,超过Llama3.1、Mixtral等一流开源大模型。
- 开源三款模型:Hunyuan-A52B-Pretrain、Hunyuan-A52B-Instruct和Hunyuan-A52B-FP8,适用于企业和开发者。
- 采用共享专家路由策略和回收路由策略,提升模型训练稳定性和效率。
- 使用高质量合成数据,提升模型在数学和代码生成等领域的能力。
- 长文能力优化,支持最大256K上下文,提升深度解析能力。
- 推理加速优化,通过Grouped-Query Attention和Cross-Layer Attention压缩KV Cache,提升推理性能。
- 使用SFT和RLHF训练策略,提升模型生成与人类偏好的回答的能力。
- 腾讯混元Large模型的训练和推理基于腾讯Angel机器学习平台,性能显著提升。
➡️