Jina-VLM:小型多语言视觉语言模型

Jina-VLM:小型多语言视觉语言模型

💡 原文英文,约1200词,阅读约需5分钟。
📝

内容提要

jina-vlm是一个具有2.4B参数的视觉语言模型,支持29种语言的视觉问答,性能优越,适合消费级硬件。它结合了SigLIP2视觉编码器和Qwen3语言骨干,在多语言理解和视觉推理方面表现出色,并通过高效的注意力池化连接器减少视觉标记数量,保持多语言能力。

🎯

关键要点

  • jina-vlm是一个具有2.4B参数的视觉语言模型,支持29种语言的视觉问答。
  • 该模型结合了SigLIP2视觉编码器和Qwen3语言骨干,性能优越,适合消费级硬件。
  • jina-vlm在多语言理解和视觉推理方面表现出色,使用高效的注意力池化连接器减少视觉标记数量。
  • 模型在多个基准测试中表现优异,包括多语言多模态理解和视觉问答。
  • jina-vlm的架构创新在于视觉语言连接器,通过2x2注意力池化将视觉标记数量减少4倍,保持信息损失最小。
  • 训练过程分为两个阶段:对齐训练和指令微调,以保持多语言能力和文本理解。
  • jina-vlm的训练数据包括约500万多模态样本和120亿文本标记,涵盖29种语言。
  • 模型在处理高分辨率图像时存在切片开销,可能影响整体场景理解。
  • 未来的工作将探索更高效的分辨率处理和多图像推理的优化。
➡️

继续阅读