Mini-InternVL:一个灵活传输的口袋多模态模型,参数仅占5%且性能达90%

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

我们提出了MobileVLM,一个为移动设备设计的多模态视觉语言模型,包含1.4B和2.7B参数的语言模型及CLIP风格的视觉模型。评估结果显示,其性能与更大模型相当,推断速度在高通骁龙888和NVIDIA Jeston Orin上分别为21.5和65.3个token每秒。

🎯

关键要点

  • 提出了MobileVLM,一个为移动设备设计的多模态视觉语言模型。
  • MobileVLM包含1.4B和2.7B参数的语言模型,以及CLIP风格的视觉模型。
  • 模型通过高效的投影实现跨模态交互。
  • 在多个VLM基准测试中,MobileVLM的性能与更大模型相当。
  • 在高通骁龙888和NVIDIA Jeston Orin上,推断速度分别为21.5和65.3个token每秒。
  • 代码将在指定的URL上提供。
➡️

继续阅读