机器之心 ·

国内首个自研MoE多模态大模型，揭秘腾讯混元多模态理解

💡 原文中文，约2200字，阅读约需6分钟。

📝

内容提要

腾讯混元推出了基于MoE架构的多模态理解大模型，能够处理任意分辨率的图片，在中文多模态理解评测中取得了好成绩。该模型具备丰富的多模态场景理解能力，并在通用场景和海量应用上进行了优化。

🎯

关键要点

腾讯混元推出基于MoE架构的多模态理解大模型，支持任意分辨率图片处理。
该模型在中文多模态理解评测中取得了优异成绩，具备丰富的场景理解能力。
多模态理解是推动通用人工智能向物理世界迈进的关键。
腾讯混元多模态模型在架构、训练方法和数据处理方面进行了创新和优化。
该模型在SuperCLUE-V评测中获得国内排名第一，超越多个主流闭源模型。
腾讯混元采用混合专家模型(MoE)架构，提升了模型性能。
模型设计遵循简单、合理、可规模化的原则，支持原生任意分辨率。
SuperCLUE-V评测更侧重于中文能力，关注用户真实问题。
混元多模态理解模型面向通用场景和海量应用进行了优化，积累了丰富的问答语料。
腾讯元宝产品已上线，面向企业及个人开发者开放。

❓

延伸问答

腾讯混元多模态理解大模型的主要特点是什么？

该模型基于MoE架构，支持任意分辨率图片处理，具备丰富的多模态场景理解能力，并在中文多模态理解评测中取得优异成绩。

腾讯混元多模态理解大模型在评测中表现如何？

在SuperCLUE-V评测中，腾讯混元多模态理解系统获得国内排名第一，得分71.95，仅次于GPT-4o。

MoE架构对腾讯混元模型的性能提升有何影响？

MoE架构使模型总体性能提升50%，并在中文能力上追平GPT-4o，特别是在数学和推理能力上有显著提升。

腾讯混元多模态理解大模型的应用场景有哪些？

该模型可用于图片基础理解、内容创作、推理分析、知识问答、OCR文档解析等多个场景。

腾讯混元多模态理解大模型如何处理图片？

模型支持原生任意分辨率的图片处理，能够理解最高7K分辨率的图片，且采用简单的MLP适配器以减少信息损失。

腾讯元宝产品的功能是什么？

腾讯元宝产品基于混元多模态理解大模型，提供AI助手功能，面向企业及个人开发者开放。

🏷️

继续阅读

行业财报 | 康卡斯特、迪士尼、派拉蒙、索尼音乐、环球音乐、腾讯音乐等17家媒体电影音乐公司2026年第一季度业绩汇总
2026年第一季度，康卡斯特、迪士尼、奈飞等媒体公司业绩增长。迪士尼营收251.68亿美元，同比增长7%；奈飞营收122.5亿美元，净利润52.83亿美元...
DeepSeek首轮500亿元融资细节曝光：估值4000亿，腾讯、宁德时代都来了
国内AI企业DeepSeek即将完成首轮融资，计划募资约500亿元，投资方包括腾讯和宁德时代。融资后估值预计达3500亿至4000亿元。创始人梁文锋将投入...
亚马逊的搜索栏将生成无法购买的AI生成产品
亚马逊更新了搜索栏，用户可以根据描述查看AI生成的服装和家居商品图片，帮助用户在记不清具体名称时找到所需商品。该功能将于安卓和iOS应用上线。
游记-千岛湖
千岛湖是杭州附近的美丽旅游胜地，以清澈的湖水和众多小岛著称。游客可以享受自然风光，进行水上活动，体验宁静的环境。
利用Amazon FSx for NetApp ONTAP构建高可用的Oracle数据库
本文介绍了如何利用Amazon FSx for NetApp ONTAP构建高可用的Oracle数据库架构。通过结合AWS的多项服务，如自动扩展组、AWS...
Studio CLI：终端驱动的本地开发利器，全流程 WordPress 自动化管理
Studio CLI 是一款基于终端的 WordPress 本地开发工具，支持全流程自动化管理。用户可通过命令行创建、管理和预览站点，深度集成 WP-CL...