无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni，小巧全能，极速推理

机器之心 ·

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni，小巧全能，极速推理

💡 原文中文，约2600字，阅读约需7分钟。

📝

内容提要

无问芯穹于12月16日开源了全球首个端侧全模态理解模型Megrez-3B-Omni，该模型具备图片、音频和文本处理能力，参数为30亿，推理速度领先300%。在多个基准测试中表现优异，支持语音指令和网页搜索，旨在提升端侧智能设备的性能与效率。

🎯

关键要点

无问芯穹于12月16日开源了全球首个端侧全模态理解模型Megrez-3B-Omni，具备图片、音频和文本处理能力。
Megrez-3B-Omni参数为30亿，推理速度领先同精度模型300%。
该模型在多个基准测试中表现优异，支持语音指令和网页搜索，旨在提升端侧智能设备的性能与效率。
Megrez-3B-Omni在图片、文本、音频三个模态中均取得了同尺寸下最优性能，拒绝牺牲任何模态的精度。
在图像理解方面，Megrez-3B-Omni的性能超过34B模型，成为多个主流测试集上精度最高的图像理解模型之一。
在文本理解方面，Megrez-3B-Omni将上一代14B模型的能力压缩至3B规模，显著降低计算成本并提升效率。
在音频理解方面，Megrez-3B-Omni支持中文和英文的语音输入，能够处理复杂的多轮对话场景。
Megrez-3B-Omni通过软硬件协同优化策略，确保了与主流硬件的高度适配，实现硬件性能的最大化利用。
Megrez-3B-Instruct提供WebSearch功能，智能判断何时调用外部工具进行网页搜索，提升回答的全面性。
无问芯穹致力于为端侧设备提供更完整的智能方案，推动大模型在端侧设备上实现更高推理速度与更低能耗。

❓

延伸问答

Megrez-3B-Omni模型的主要特点是什么？

Megrez-3B-Omni是全球首个端侧全模态理解模型，具备图片、音频和文本处理能力，参数为30亿，推理速度领先同精度模型300%。

Megrez-3B-Omni在图像理解方面的表现如何？

在图像理解方面，Megrez-3B-Omni的性能超过34B模型，是多个主流测试集上精度最高的图像理解模型之一。

Megrez-3B-Omni如何处理音频输入？

Megrez-3B-Omni支持中文和英文的语音输入，能够处理复杂的多轮对话场景，并支持对输入图片或文字的语音提问。

Megrez-3B-Omni的推理速度相比其他模型如何？

Megrez-3B-Omni的推理速度领先同精度模型300%，实现了显著的速度提升。

Megrez-3B-Instruct模型有什么特别功能？

Megrez-3B-Instruct提供WebSearch功能，能够智能判断何时调用外部工具进行网页搜索，提升回答的全面性。

无问芯穹的技术团队背景是什么？

无问芯穹的技术团队源起于清华大学电子工程系NICS-EFC实验室，在模型压缩、推理加速及硬件能耗优化等领域拥有深入的研究和实践经验。

🏷️

继续阅读

XOLOme面向全球发布“全息AI伙伴”
XOLOme在香港国际文化创意博览会上发布了“全息AI伙伴”，结合人工智能和全息技术，提供深度陪伴。用户可以通过多种方式与AI伙伴“筱7”互动，该伙伴能够...
2026年凯度BrandZ最具价值全球品牌100强：海尔排名持续攀升至第53位
2026年凯度BrandZ全球最具价值品牌100强揭晓，海尔排名第53，连续8年为全球唯一物联网生态品牌。全球百强品牌价值增长22%，中国品牌平均增长32...
30万奖金池，这道汉语方言对话题等你来解丨第十一届信也科技杯全球AI算法大赛
第十一届信也科技杯全球AI算法大赛正在进行，奖金池达到30万元，鼓励参与者探讨汉语方言对话题，并提供NLPCC2026直通名额。
行业财报 | 宏盟、WPP、阳狮、蓝色光标、电通、分众传媒、汉威士等全球7大广告传播公司2026年第一季度业绩汇总
2026年第一季度，全球七大广告公司业绩汇总：宏盟营收62.43亿美元，WPP营收30.3亿英镑下降6.6%，阳狮净营收34.6亿欧元，蓝色光标收入188...
心脏病治疗革命：全球首次临床证实可清除动脉毒素并逆转斑块
Cyclarity Therapeutics公司开发的新药UDP-003在临床试验中首次证明能安全清除动脉中的7-酮胆固醇（7KC），这一毒素是心血管疾病...
LLM 训练与推理的基本理解
本文探讨了大型语言模型（LLM）的训练与推理过程，重点介绍了向量点积、Softmax、LayerNorm、Token化、BPE编码、位置嵌入、自注意力机制...