小红花·文摘

我们开发了MobileVLM，一种为移动设备设计的多模态视觉语言模型。它结合了优化架构和技术，使用1.4B和2.7B参数的语言模型及CLIP风格预训练的视觉模型，实现高效跨模态交互。在多个基准测试中表现优异，并在高通骁龙888和NVIDIA Jeston Orin上展示了快速推断速度。