小红花·文摘 - 小红花技术领袖俱乐部

本研究介绍了SigLIP 2，一种改进的多语言视觉-语言编码器，旨在提升语义理解和本地化能力。研究表明，SigLIP 2在零-shot分类和图像-文本检索等任务上优于前版本，并在密集预测任务中也有显著进步。

SigLIP 2：多语言视觉-语言编码器，提升语义理解、本地化和密集特征

BriefGPT - AI 论文速递 ·

VL4AD模型通过视觉-语言编码器提升像素级异常检测，解决未知语义类别的检测难题。该模型采用新评分函数，实现无数据、无训练的异常监督，优化类别描述与识别能力。

VL4AD：让语义分割认识未知类别，无需额外数据和训练的OOD语义分割 | ECCV'24 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·