小红花·文摘

本研究提出Llama3-MS-CLIP模型，通过对大规模多光谱数据集进行对比学习预训练，显著提升了多光谱图像的分类和检索能力，强调了多光谱视觉语言学习的重要性。

Beyond Visible Light: Multispectral Visual Language Learning for Earth Observation

BriefGPT - AI 论文速递 ·

本文介绍了多种基于CLIP模型的图像识别方法，如SLIP、DeCLIP和UPL，强调了自监督学习与语言监督结合的优势。这些方法在细粒度图像重识别和无监督场景中表现出色，显著提升了准确性和性能，显示了视觉语言学习在图像-文本任务中的潜力。

图像再识别：自监督与视觉语言学习的交汇

BriefGPT - AI 论文速递 ·

本研究提出了一种多模式扩散分割模型（MDSM），能够理解自然语言指令并生成目标物体的分割掩模，性能优于基线方法。同时，介绍了开放词汇的3D实例分割任务，利用零样本学习和OpenMask3D方法提升分割效果。此外，研究了基于语言指令的视觉语言学习框架，优化了3D分割特征提取，展示了在无监督条件下的有效性。

基于最优传输多边形匹配的多模式基础模型的开放词汇操纵指令的目标分割

BriefGPT - AI 论文速递 ·

最近的研究发现，视觉语言学习在人物再识别方面具有潜力。一种名为π-VL的方法通过在ReID任务中利用部分信息语言监督来增强视觉特征，取得了显著改进，尤其在MSMT17数据库中达到了90.3%的Rank-1和76.5%的mAP。

PVLR：基于提示的视觉语言表示学习用于多标签图像识别

BriefGPT - AI 论文速递 ·