H2OVL-密西西比视觉语言模型技术报告
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
我们开发了MobileVLM,一种为移动设备设计的多模态视觉语言模型。它结合了优化架构和技术,使用1.4B和2.7B参数的语言模型及CLIP风格预训练的视觉模型,实现高效跨模态交互。在多个基准测试中表现优异,并在高通骁龙888和NVIDIA Jeston Orin上展示了快速推断速度。
🎯
关键要点
- MobileVLM是为移动设备设计的多模态视觉语言模型。
- 该模型结合了1.4B和2.7B参数的语言模型及CLIP风格预训练的视觉模型。
- MobileVLM实现了高效的跨模态交互。
- 在多个基准测试中,MobileVLM表现优异,与更大的模型性能相当。
- 在高通骁龙888和NVIDIA Jeston Orin上,MobileVLM的推断速度分别为21.5个token和65.3个token每秒。
- 相关代码将在指定的URL上提供。
➡️