Uni-MoE-2.0-Omni：基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

实时互动网 ·

Uni-MoE-2.0-Omni：基于开源Qwen2.5-7B的文本、图像、音频与视频理解全模态MoE模型

💡 原文中文，约3300字，阅读约需8分钟。

📝

内容提要

Uni-MoE-2.0-Omni是哈尔滨工业大学深圳分校研发的全模态大型模型，支持文本、图像、音频和视频的理解与生成。基于Qwen2.5-7B模型，采用动态容量路由和渐进式监督学习，显著提升了跨模态推理能力，尤其在视频理解和长语音处理方面表现优异。

🎯

关键要点

Uni-MoE-2.0-Omni是哈尔滨工业大学深圳分校研发的全模态大型模型，支持文本、图像、音频和视频的理解与生成。
该模型基于Qwen2.5-7B模型，采用动态容量路由和渐进式监督学习，显著提升了跨模态推理能力。
Uni-MoE-2.0-Omni的核心是一个Qwen2.5-7B风格的Transformer模型，集成了统一的语音编码器和预训练的视觉编码器。
该系统支持10种跨模态输入配置，能够处理文本、图像、音频和视频的理解任务，并生成相应内容。
全模态3D RoPE机制将时间和空间结构编码到旋转位置嵌入中，增强了模型对标记时间和位置的理解。
混合专家模型（MoE）通过路由网络选择激活专家，实现专业化而不增加计算成本。
训练方案包括跨模态预训练、渐进式监督微调和基于GSPO和DPO的强化学习，以提高模型的推理能力。
Uni-MoE-2.0-Omni在85项多模态基准测试中表现优异，尤其在视频理解和长语音处理方面有显著提升。
该模型在视频理解任务中平均性能提升约7%，在长篇语音处理中的词错误率降低高达4.2%。

❓

延伸问答

Uni-MoE-2.0-Omni模型的主要功能是什么？

Uni-MoE-2.0-Omni模型支持文本、图像、音频和视频的理解与生成。

Uni-MoE-2.0-Omni是基于哪个模型开发的？

该模型基于Qwen2.5-7B模型开发。

Uni-MoE-2.0-Omni在视频理解方面的表现如何？

在视频理解任务中，Uni-MoE-2.0-Omni的平均性能提升约7%。

该模型采用了什么样的训练方案？

训练方案包括跨模态预训练、渐进式监督微调和基于GSPO和DPO的强化学习。

Uni-MoE-2.0-Omni如何处理不同模态的数据？

该系统支持10种跨模态输入配置，能够处理文本、图像、音频和视频的理解任务。

Uni-MoE-2.0-Omni在长篇语音处理中的表现如何？

在长篇语音处理任务中，词错误率降低高达4.2%。

🏷️

继续阅读

全新生图模型 Anima V1 发布：专注动漫风格的图像生成；MemLens 多模态长程记忆评估数据集：涵盖跨会话图文推理与知识更新机制
Anima V1 是 CircleStone Labs 于 2026 年推出的动漫风格图像生成模型，支持通过文本描述快速生成角色立绘和插画，用户可在 Gr...
谷歌的新型全能AI模型令人惊叹
谷歌的新AI模型Omni可以将照片、视频和文本转化为其他形式，已在视频生成平台Flow中推出。Omni在生成视频时表现出色，但仍存在不一致和奇怪的结果，用...
美团外卖前负责人入局餐饮具身模型，元节智能获千万级种子轮融资
元节智能（AtomBite.AI）是一家专注于餐饮后厨的智能初创公司，近期完成千万级种子轮融资。创始人王栋博士曾任美团外卖技术负责人，团队成员来自清华、中...
Google 开源 AX 与 Agent Substrate：构建以 Agent 为核心的云原生计算底座
Google 在 I/O ’26 大会上推出了以 Agent 为核心的云原生计算基础设施，包括开源项目 AX 和 Agent Substrate。该系统通...
MoE环游记：8、强制序列级均衡
到目前为止，“MoE环游记”系列已经写了7篇文章，其中5篇都是围绕着MoE的路由和负载均衡展开的。从路由的形式来看，它们可以分为静态计算和动态计算两类；从...
专注动漫风格，全新生图模型Anima V1已开源；哈佛大学发布机器学习系统教学平台MLSysBook，含33个可交互实验
Anima V1 是 CircleStone Labs 于 2026 年发布的动漫风格图像生成模型，用户可以通过文本描述生成精美图像，适用于角色立绘和插画...