Jina-VLM:小型多语言视觉语言模型

Jina-VLM:小型多语言视觉语言模型

Jina AI Jina AI ·

jina-vlm是一个具有2.4B参数的视觉语言模型,支持29种语言的视觉问答,性能优越,适合消费级硬件。它结合了SigLIP2视觉编码器和Qwen3语言骨干,在多语言理解和视觉推理方面表现出色,并通过高效的注意力池化连接器减少视觉标记数量,保持多语言能力。

原文英文,约1200词,阅读约需5分钟。
阅读原文