本研究介绍了SigLIP 2,一种改进的多语言视觉-语言编码器,旨在提升语义理解和本地化能力。研究表明,SigLIP 2在零-shot分类和图像-文本检索等任务上优于前版本,并在密集预测任务中也有显著进步。
完成下面两步后,将自动完成登录并继续当前操作。