我们提出了MobileVLM,一个为移动设备设计的多模态视觉语言模型,包含1.4B和2.7B参数的语言模型及CLIP风格的视觉模型。评估结果显示,其性能与更大模型相当,推断速度在高通骁龙888和NVIDIA Jeston Orin上分别为21.5和65.3个token每秒。
完成下面两步后,将自动完成登录并继续当前操作。