爱范儿 ·

一夜掀翻 GPT-4V 的国产「小钢炮」，可能会是华为小米们对抗 AI iPhone 的关键武器

💡 原文中文，约3900字，阅读约需10分钟。

📝

内容提要

华为小米推出了MiniCPM-Llama3-V 2.5，超越了Gemini Pro和GPT-4V，具备高清图像高效编码技术、多语言支持和复杂推理能力。MiniCPM-Llama3-V 2.5的发布标志着端侧模型开始渗透到日常生活中，终端厂商纷纷推出小尺寸模型，苹果可能推出针对AI应用的商店。MiniCPM-Llama3-V 2.5证明了模型不仅仅依赖参数大小，端侧模型让AI反应比人类思维更快，预示着终端设备的下一个春天即将到来。

🎯

关键要点

华为小米推出MiniCPM-Llama3-V 2.5，超越Gemini Pro和GPT-4V。
MiniCPM-Llama3-V 2.5具备高清图像高效编码技术、多语言支持和复杂推理能力。
该模型的发布标志着端侧模型开始渗透到日常生活中。
MiniCPM-Llama3-V 2.5在评测平台OpenCompass得分65.1，超越了多个重量级模型。
在OCR基准测试中，MiniCPM-Llama3-V 2.5取得725分，远超GPT-4V。
该模型在幻觉能力上有所改进，幻觉率降低至10.3。
MiniCPM-Llama3-V 2.5支持高效编码180万高清像素图片，处理速度提升150倍。
该模型支持30多种语言，涵盖多种主流语言。
端侧模型在智能手机等终端设备上运行，具有实时处理和隐私保护等优点。
端侧模型的研究与云端模型并行发展，推动了AI技术的应用。
苹果计划推出针对AI应用的商店，标志着其在AI时代的战略转型。
MiniCPM-Llama3-V 2.5证明了小参数模型也能实现强性能，预示着终端设备的未来。

❓

延伸问答

MiniCPM-Llama3-V 2.5有哪些主要特点？

MiniCPM-Llama3-V 2.5具备高清图像高效编码技术、多语言支持和复杂推理能力，超越了Gemini Pro和GPT-4V。

MiniCPM-Llama3-V 2.5在OCR测试中的表现如何？

在OCR基准测试中，MiniCPM-Llama3-V 2.5取得725分，远超GPT-4V。

端侧模型的优势是什么？

端侧模型在本地运行，能够实时处理数据，具有低延迟和隐私保护等优点。

MiniCPM-Llama3-V 2.5如何提升图像处理速度？

MiniCPM-Llama3-V 2.5通过NPU加速框架实现了图像编码速度提升150倍。

苹果在AI领域的最新计划是什么？

苹果计划推出一个专门针对AI应用的商店，标志着其在AI时代的战略转型。

MiniCPM-Llama3-V 2.5的多语言支持情况如何？

MiniCPM-Llama3-V 2.5支持30多种语言，包括德语、法语、西班牙语等主流语言。

🏷️