PaLI-3 视觉语言模型：更小、更快、更强

原文约400字，阅读约需1分钟。发表于：。

PaLI-3 是一个较小、更快、更强的视觉语言模型（VLM），相比于大十倍的类似模型具有有利的比较性能。与使用分类目标进行预训练的 Vision Transformer（ViT）模型相比，SigLIP 预训练模型的 PaLI 在标准图像分类基准上略有弱势，但在各种多模态基准测试中表现出优越的性能，特别是在定位和视觉文本理解方面。我们将 SigLIP 图像编码器扩展到 20 亿参数，并在多语言交叉模态检索方面取得了新的最先进水平。我们希望 PaLI-3 能够重新点燃对复杂 VLM 基础要素的研究，并推动新一代扩展模型的发展。

PaLI-3是一种更小、更快、更强的视觉语言模型，具有更好的比较性能。SigLIP预训练模型的PaLI在标准图像分类基准上略有弱势，但在多模态基准测试中表现出优越的性能，特别是在定位和视觉文本理解方面。SigLIP图像编码器已扩展到20亿参数，并在多语言交叉模态检索方面取得了新的最先进水平。希望PaLI-3能够推动新一代扩展模型的发展。