我们开发了MobileVLM,一种为移动设备设计的多模态视觉语言模型。它结合了优化架构和技术,使用1.4B和2.7B参数的语言模型及CLIP风格预训练的视觉模型,实现高效跨模态交互。在多个基准测试中表现优异,并在高通骁龙888和NVIDIA Jeston Orin上展示了快速推断速度。
完成下面两步后,将自动完成登录并继续当前操作。