无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

无问芯穹发布全球首个端侧全模态理解的开源模型Megrez-3B-Omni,小巧全能,极速推理

💡 原文中文,约2600字,阅读约需7分钟。
📝

内容提要

无问芯穹于12月16日开源了全球首个端侧全模态理解模型Megrez-3B-Omni,该模型具备图片、音频和文本处理能力,参数为30亿,推理速度领先300%。在多个基准测试中表现优异,支持语音指令和网页搜索,旨在提升端侧智能设备的性能与效率。

🎯

关键要点

  • 无问芯穹于12月16日开源了全球首个端侧全模态理解模型Megrez-3B-Omni,具备图片、音频和文本处理能力。

  • Megrez-3B-Omni参数为30亿,推理速度领先同精度模型300%。

  • 该模型在多个基准测试中表现优异,支持语音指令和网页搜索,旨在提升端侧智能设备的性能与效率。

  • Megrez-3B-Omni在图片、文本、音频三个模态中均取得了同尺寸下最优性能,拒绝牺牲任何模态的精度。

  • 在图像理解方面,Megrez-3B-Omni的性能超过34B模型,成为多个主流测试集上精度最高的图像理解模型之一。

  • 在文本理解方面,Megrez-3B-Omni将上一代14B模型的能力压缩至3B规模,显著降低计算成本并提升效率。

  • 在音频理解方面,Megrez-3B-Omni支持中文和英文的语音输入,能够处理复杂的多轮对话场景。

  • Megrez-3B-Omni通过软硬件协同优化策略,确保了与主流硬件的高度适配,实现硬件性能的最大化利用。

  • Megrez-3B-Instruct提供WebSearch功能,智能判断何时调用外部工具进行网页搜索,提升回答的全面性。

  • 无问芯穹致力于为端侧设备提供更完整的智能方案,推动大模型在端侧设备上实现更高推理速度与更低能耗。

➡️

继续阅读