爱范儿 ·

手机上能跑的 GPT-4V！面壁发布端侧最强多模态小钢炮 2.6，实时视频理解首次上端

💡 原文中文，约3000字，阅读约需8分钟。

📝

内容提要

面壁智能发布了MiniCPM-V 2.6模型，提升了端侧多模态能力，超越了GPT-4V。该模型具有实时视频理解、多图联合、ICL视觉学习、OCR等功能，编码像素密度是GPT-4o的两倍，视觉token数量比同类模型低75%，内存占用量小，推理速度快。MiniCPM-V 2.6在多个评测平台上取得了优秀成绩，采用了统一高清视觉架构，实现了一通百通的功能。面壁智能将继续推出更多优质的端侧AI模型。

🎯

关键要点

面壁智能发布了MiniCPM-V 2.6模型，提升了端侧多模态能力，超越了GPT-4V。
该模型具有实时视频理解、多图联合、ICL视觉学习、OCR等功能。
MiniCPM-V 2.6的编码像素密度是GPT-4o的两倍，视觉token数量比同类模型低75%。
内存占用量小，推理速度快，支持多种语言。
MiniCPM-V 2.6在多个评测平台上取得了优秀成绩，标志着端侧AI多模态能力的提升。
模型能够实时识别真实世界的物品，简化记账和报销流程。
具备复杂推理能力，能够通过多轮对话指导用户完成任务。
MiniCPM-V 2.6在知识压缩率方面表现优异，Token Density最高。
在OpenCompass、Mantis-Eval和Video-MME等评测平台上，MiniCPM-V 2.6均超越了竞争对手。
采用统一高清视觉架构，实现了多模态能力的知识共享与迁移。
MiniCPM-V 2.6的幻觉率为8.2%，延续了小钢炮系列的传统优势。
面壁智能计划继续推出更多优质的端侧AI模型，推动端侧AI的发展。

❓

延伸问答

MiniCPM-V 2.6模型有哪些主要功能？

MiniCPM-V 2.6模型具有实时视频理解、多图联合、ICL视觉学习和OCR等功能。

MiniCPM-V 2.6与GPT-4V相比有什么优势？

MiniCPM-V 2.6在多模态能力上全面超越GPT-4V，且编码像素密度是GPT-4o的两倍。

MiniCPM-V 2.6的推理速度和内存占用情况如何？

MiniCPM-V 2.6的推理速度高达18 tokens/s，内存占用仅为6 GB。

MiniCPM-V 2.6如何简化记账和报销流程？

用户只需拍照上传小票，MiniCPM-V 2.6能够识别金额并计算总和，简化流程。

MiniCPM-V 2.6在评测平台上的表现如何？

MiniCPM-V 2.6在OpenCompass、Mantis-Eval和Video-MME等评测平台上均取得了优秀成绩。

面壁智能未来有什么计划？

面壁智能计划继续推出更多优质的端侧AI模型，推动端侧AI的发展。

🏷️