CityLLaVA: 城市场景下 VLMs 的高效微调
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
MobileVLM是专为移动设备设计的多模式视觉语言模型,性能与更大模型相当。在高通骁龙888 CPU和NVIDIA Jeston Orin GPU上,MobileVLM的推断速度分别为21.5个token和65.3个token每秒。
🎯
关键要点
- MobileVLM是专为移动设备设计的多模式视觉语言模型(MMVLM)。
- MobileVLM集成了从头训练的1.4B和2.7B参数规模的语言模型。
- 使用CLIP风格预训练的多模式视觉模型实现跨模态交互。
- MobileVLM在多个VLM基准测试上表现出与更大模型相当的性能。
- 在高通骁龙888 CPU上,MobileVLM的推断速度为21.5个token每秒。
- 在NVIDIA Jeston Orin GPU上,MobileVLM的推断速度为65.3个token每秒。
- 相关代码将在指定的URL上提供。
➡️