MobileVLM: 移动设备上快速、可重现和强大的视觉语言助手

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

MobileVLM是一个专为移动设备设计的多模式视觉语言模型,具有高效的投影实现跨模态交互。在VLM基准测试中表现出与更大模型相当的性能。在高通骁龙888 CPU和NVIDIA Jeston Orin GPU上获得了21.5个token和65.3个token每秒的推断速度。

🎯

关键要点

  • MobileVLM是一个专为移动设备设计的多模式视觉语言模型(MMVLM)。
  • 集成了从头训练的1.4B和2.7B参数规模的语言模型。
  • 使用CLIP风格预训练的多模式视觉模型,实现高效的跨模态交互。
  • 在多个VLM基准测试中表现出与更大模型相当的性能。
  • 在高通骁龙888 CPU上获得21.5个token每秒的推断速度。
  • 在NVIDIA Jeston Orin GPU上获得65.3个token每秒的推断速度。
  • 代码将在指定的URL上提供。
➡️

继续阅读