腾讯混元推出首款开源混合推理模型,擅长Agent工具调用和长文理解

💡 原文中文,约2100字,阅读约需5分钟。
📝

内容提要

腾讯推出首款开源混合推理模型Hunyuan-A13B,参数80B,激活参数13B,推理速度快且性价比高。该模型在长文理解和Agent工具调用方面表现优异,支持256K上下文窗口,适合个人开发者使用。同时,腾讯还开源了两个新数据集,以提升大语言模型的能力。

🎯

关键要点

  • 腾讯推出首款开源混合推理模型Hunyuan-A13B,参数80B,激活参数13B。
  • Hunyuan-A13B在长文理解和Agent工具调用方面表现优异,支持256K上下文窗口。
  • 模型已在Github和Huggingface等开源社区上线,支持快速接入部署。
  • Hunyuan-A13B是业界首个13B级别的MoE开源混合推理模型,推理速度快且性价比高。
  • 腾讯混元建设了多Agent数据合成框架,通过强化学习提升Agent能力。
  • 模型支持快思考和慢思考模式,优化计算资源分配。
  • Hunyuan-A13B对个人开发者友好,仅需1张中低端GPU卡即可部署。
  • 模型训练了20T tokens的语料,显著提升了通用能力。
  • 腾讯开源了两个新数据集ArtifactsBench和C3-Bench,以提升大语言模型能力。
  • Hunyuan-A13B是腾讯内部应用和调用量最大的模型之一,日均请求超1.3亿。
  • 腾讯混元计划推出更多尺寸和特色的模型,促进大模型开源生态的繁荣。
  • 未来将推出多尺寸混合推理模型,适配企业与端侧不同需求。

延伸问答

Hunyuan-A13B模型的主要特点是什么?

Hunyuan-A13B模型具有80B的总参数和13B的激活参数,支持256K上下文窗口,推理速度快且性价比高,特别擅长长文理解和Agent工具调用。

Hunyuan-A13B模型适合哪些开发者使用?

Hunyuan-A13B模型对个人开发者友好,仅需1张中低端GPU卡即可部署,降低了使用门槛。

腾讯开源了哪些新数据集来提升大语言模型能力?

腾讯开源了ArtifactsBench和C3-Bench两个新数据集,分别用于评估代码生成和Agent场景模型的能力。

Hunyuan-A13B模型的推理模式有什么不同?

Hunyuan-A13B模型支持快思考和慢思考模式,快思考模式适合简单任务,慢思考模式适合复杂推理,优化了计算资源分配。

Hunyuan-A13B模型在长文理解方面的表现如何?

Hunyuan-A13B模型在多个长文数据集中取得了优异成绩,支持256K原生上下文窗口,表现突出。

腾讯混元未来有什么计划?

腾讯混元计划推出更多尺寸和特色的混合推理模型,以适配企业与端侧不同需求,促进大模型开源生态的繁荣。

➡️

继续阅读