机器之心 ·

腾讯混元又来开源，一出手就是最大MoE大模型

💡 原文中文，约4700字，阅读约需12分钟。

📝

内容提要

腾讯混元团队推出了基于混合专家（MoE）架构的Hunyuan-Large模型，参数量达到389B，支持多种应用场景。该模型在多项评测中表现优异，采用高效路由策略和合成数据，提升了推理速度和长文处理能力，已开源，适用于企业和开发者。

🎯

关键要点

腾讯混元团队推出基于混合专家（MoE）架构的Hunyuan-Large模型，参数量达到389B，支持多种应用场景。
Hunyuan-Large在多项评测中表现优异，超过Llama3.1、Mixtral等一流开源大模型。
开源三款模型：Hunyuan-A52B-Pretrain、Hunyuan-A52B-Instruct和Hunyuan-A52B-FP8，适用于企业和开发者。
采用共享专家路由策略和回收路由策略，提升模型训练稳定性和效率。
使用高质量合成数据，提升模型在数学和代码生成等领域的能力。
长文能力优化，支持最大256K上下文，提升深度解析能力。
推理加速优化，通过Grouped-Query Attention和Cross-Layer Attention压缩KV Cache，提升推理性能。
使用SFT和RLHF训练策略，提升模型生成与人类偏好的回答的能力。
腾讯混元Large模型的训练和推理基于腾讯Angel机器学习平台，性能显著提升。

❓

延伸问答

Hunyuan-Large模型的参数量是多少？

Hunyuan-Large模型的参数量达到389B。

腾讯混元团队开源了哪些模型？

腾讯混元团队开源了Hunyuan-A52B-Pretrain、Hunyuan-A52B-Instruct和Hunyuan-A52B-FP8三款模型。

Hunyuan-Large模型在评测中表现如何？

Hunyuan-Large在多项评测中表现优异，超过Llama3.1、Mixtral等一流开源大模型。

Hunyuan-Large模型如何提升推理速度？

通过Grouped-Query Attention和Cross-Layer Attention压缩KV Cache，提升推理性能。

Hunyuan-Large模型的长文处理能力如何？

Hunyuan-Large支持最大256K上下文，提升了长文处理能力。

腾讯混元团队如何保证训练数据的质量？

通过构建数据质检Pipeline，自动化筛选高质量的训练数据，确保数据质量。

🏷️

继续阅读

VoidZero团队已加入Cloudflare
VoidZero团队已加入Cloudflare，Vite及其相关项目将继续保持开源和中立。Cloudflare承诺投资100万美元支持Vite生态系统的维...
开源维护者的困境
开源维护者面临困境，贡献者与维护者之间的社会契约逐渐崩溃。AI的介入虽然提供帮助，但也引发责任和审核标准的疑问。维护者的工作量激增，未处理的拉取请求不断增...
原华为盘古大模型负责人王云鹤离职创业；苹果硬件负责人启动重大重组；OpenAI联合创始人加入Anthropic
近期多家科技公司高管频繁变动。华为盘古大模型负责人王云鹤离职创业，成立新公司“基元律动”；阿里副总裁张凯夫也离职创业，专注市场行为预测；苹果硬件部门进行重...
LeCun 10亿押注的方向，全球领先视觉大模型团队早已布局
视启未来团队专注于开发隐空间世界模型，推动AI从“看见”向“预见”转变。创始人张磊指出，理解因果关系和物理规律至关重要。团队通过提升物体理解能力，推出全球...
一千台599美元Mac mini替代H100跑大模型：便宜十倍
一千台599美元的Mac mini可以替代昂贵的H100服务器，具有低成本和低功耗的优势。Mac mini的统一内存架构提升了AI模型的运行效率，适合本地...
身份与访问管理白皮书
随着云原生架构的分布式和自动化，身份管理成为新的安全边界。传统身份验证方法难以满足短暂工作负载和零信任要求。IAM白皮书为架构师和开发者提供了在云原生环境...