小红花·文摘

本文介绍了多种基于CLIP模型的图像识别方法，如SLIP、DeCLIP和UPL，强调了自监督学习与语言监督结合的优势。这些方法在细粒度图像重识别和无监督场景中表现出色，显著提升了准确性和性能，显示了视觉语言学习在图像-文本任务中的潜力。