腾讯混元又来开源,一出手就是最大MoE大模型

腾讯混元又来开源,一出手就是最大MoE大模型

💡 原文中文,约4700字,阅读约需12分钟。
📝

内容提要

腾讯混元团队推出了基于混合专家(MoE)架构的Hunyuan-Large模型,参数量达到389B,支持多种应用场景。该模型在多项评测中表现优异,采用高效路由策略和合成数据,提升了推理速度和长文处理能力,已开源,适用于企业和开发者。

🎯

关键要点

  • 腾讯混元团队推出基于混合专家(MoE)架构的Hunyuan-Large模型,参数量达到389B,支持多种应用场景。
  • Hunyuan-Large在多项评测中表现优异,超过Llama3.1、Mixtral等一流开源大模型。
  • 开源三款模型:Hunyuan-A52B-Pretrain、Hunyuan-A52B-Instruct和Hunyuan-A52B-FP8,适用于企业和开发者。
  • 采用共享专家路由策略和回收路由策略,提升模型训练稳定性和效率。
  • 使用高质量合成数据,提升模型在数学和代码生成等领域的能力。
  • 长文能力优化,支持最大256K上下文,提升深度解析能力。
  • 推理加速优化,通过Grouped-Query Attention和Cross-Layer Attention压缩KV Cache,提升推理性能。
  • 使用SFT和RLHF训练策略,提升模型生成与人类偏好的回答的能力。
  • 腾讯混元Large模型的训练和推理基于腾讯Angel机器学习平台,性能显著提升。
➡️

继续阅读