MobileVLM: 移动设备上快速、可重现和强大的视觉语言助手
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了 MobileVLM,这是一个专为移动设备设计的多模式视觉语言模型(MMVLM)。它集成了各种移动设备定向的架构设计和技术,包括一组从头训练的 1.4B 和 2.7B 参数规模的语言模型,以及使用 CLIP 风格预训练的多模式视觉模型,通过高效的投影实现跨模态交互。我们在几个典型的 VLM 基准测试上评估了...
MobileVLM是一个专为移动设备设计的多模式视觉语言模型,具有高效的投影实现跨模态交互。在VLM基准测试中表现出与更大模型相当的性能。在高通骁龙888 CPU和NVIDIA Jeston Orin GPU上获得了21.5个token和65.3个token每秒的推断速度。