腾讯混元推出首款开源混合推理模型,擅长Agent工具调用和长文理解
💡
原文中文,约2100字,阅读约需5分钟。
📝
内容提要
腾讯推出首款开源混合推理模型Hunyuan-A13B,参数80B,激活参数13B,推理速度快且性价比高。该模型在长文理解和Agent工具调用方面表现优异,支持256K上下文窗口,适合个人开发者使用。同时,腾讯还开源了两个新数据集,以提升大语言模型的能力。
🎯
关键要点
- 腾讯推出首款开源混合推理模型Hunyuan-A13B,参数80B,激活参数13B。
- Hunyuan-A13B在长文理解和Agent工具调用方面表现优异,支持256K上下文窗口。
- 模型已在Github和Huggingface等开源社区上线,支持快速接入部署。
- Hunyuan-A13B是业界首个13B级别的MoE开源混合推理模型,推理速度快且性价比高。
- 腾讯混元建设了多Agent数据合成框架,通过强化学习提升Agent能力。
- 模型支持快思考和慢思考模式,优化计算资源分配。
- Hunyuan-A13B对个人开发者友好,仅需1张中低端GPU卡即可部署。
- 模型训练了20T tokens的语料,显著提升了通用能力。
- 腾讯开源了两个新数据集ArtifactsBench和C3-Bench,以提升大语言模型能力。
- Hunyuan-A13B是腾讯内部应用和调用量最大的模型之一,日均请求超1.3亿。
- 腾讯混元计划推出更多尺寸和特色的模型,促进大模型开源生态的繁荣。
- 未来将推出多尺寸混合推理模型,适配企业与端侧不同需求。
❓
延伸问答
Hunyuan-A13B模型的主要特点是什么?
Hunyuan-A13B模型具有80B的总参数和13B的激活参数,支持256K上下文窗口,推理速度快且性价比高,特别擅长长文理解和Agent工具调用。
Hunyuan-A13B模型适合哪些开发者使用?
Hunyuan-A13B模型对个人开发者友好,仅需1张中低端GPU卡即可部署,降低了使用门槛。
腾讯开源了哪些新数据集来提升大语言模型能力?
腾讯开源了ArtifactsBench和C3-Bench两个新数据集,分别用于评估代码生成和Agent场景模型的能力。
Hunyuan-A13B模型的推理模式有什么不同?
Hunyuan-A13B模型支持快思考和慢思考模式,快思考模式适合简单任务,慢思考模式适合复杂推理,优化了计算资源分配。
Hunyuan-A13B模型在长文理解方面的表现如何?
Hunyuan-A13B模型在多个长文数据集中取得了优异成绩,支持256K原生上下文窗口,表现突出。
腾讯混元未来有什么计划?
腾讯混元计划推出更多尺寸和特色的混合推理模型,以适配企业与端侧不同需求,促进大模型开源生态的繁荣。
➡️