Mini-InternVL:一个灵活传输的口袋多模态模型,参数仅占5%且性能达90%
原文中文,约400字,阅读约需1分钟。发表于: 。本研究解决了多模态大语言模型(MLLM)在消费者级GPU或边缘设备上训练和部署的高计算成本问题。我们提出的Mini-InternVL系列模型在参数仅为5%的情况下实现90%的性能,通过统一适应框架使其在一系列下游任务中超越专门模型,显著提升了MLLM的应用效能。
我们提出了MobileVLM,一个为移动设备设计的多模态视觉语言模型,包含1.4B和2.7B参数的语言模型及CLIP风格的视觉模型。评估结果显示,其性能与更大模型相当,推断速度在高通骁龙888和NVIDIA Jeston Orin上分别为21.5和65.3个token每秒。