内容提要
无问芯穹于12月16日开源了全球首个端侧全模态理解模型Megrez-3B-Omni,该模型具备图片、音频和文本处理能力,参数为30亿,推理速度领先300%。在多个基准测试中表现优异,支持语音指令和网页搜索,旨在提升端侧智能设备的性能与效率。
关键要点
-
无问芯穹于12月16日开源了全球首个端侧全模态理解模型Megrez-3B-Omni,具备图片、音频和文本处理能力。
-
Megrez-3B-Omni参数为30亿,推理速度领先同精度模型300%。
-
该模型在多个基准测试中表现优异,支持语音指令和网页搜索,旨在提升端侧智能设备的性能与效率。
-
Megrez-3B-Omni在图片、文本、音频三个模态中均取得了同尺寸下最优性能,拒绝牺牲任何模态的精度。
-
在图像理解方面,Megrez-3B-Omni的性能超过34B模型,成为多个主流测试集上精度最高的图像理解模型之一。
-
在文本理解方面,Megrez-3B-Omni将上一代14B模型的能力压缩至3B规模,显著降低计算成本并提升效率。
-
在音频理解方面,Megrez-3B-Omni支持中文和英文的语音输入,能够处理复杂的多轮对话场景。
-
Megrez-3B-Omni通过软硬件协同优化策略,确保了与主流硬件的高度适配,实现硬件性能的最大化利用。
-
Megrez-3B-Instruct提供WebSearch功能,智能判断何时调用外部工具进行网页搜索,提升回答的全面性。
-
无问芯穹致力于为端侧设备提供更完整的智能方案,推动大模型在端侧设备上实现更高推理速度与更低能耗。
延伸问答
Megrez-3B-Omni模型的主要特点是什么?
Megrez-3B-Omni是全球首个端侧全模态理解模型,具备图片、音频和文本处理能力,参数为30亿,推理速度领先同精度模型300%。
Megrez-3B-Omni在图像理解方面的表现如何?
在图像理解方面,Megrez-3B-Omni的性能超过34B模型,是多个主流测试集上精度最高的图像理解模型之一。
Megrez-3B-Omni如何处理音频输入?
Megrez-3B-Omni支持中文和英文的语音输入,能够处理复杂的多轮对话场景,并支持对输入图片或文字的语音提问。
Megrez-3B-Omni的推理速度相比其他模型如何?
Megrez-3B-Omni的推理速度领先同精度模型300%,实现了显著的速度提升。
Megrez-3B-Instruct模型有什么特别功能?
Megrez-3B-Instruct提供WebSearch功能,能够智能判断何时调用外部工具进行网页搜索,提升回答的全面性。
无问芯穹的技术团队背景是什么?
无问芯穹的技术团队源起于清华大学电子工程系NICS-EFC实验室,在模型压缩、推理加速及硬件能耗优化等领域拥有深入的研究和实践经验。