小红花·文摘

本文提出了CLIP-benchmark，用于评估CLIP及其变种，分析数据、监督和模型架构对性能的影响。研究结合对比学习与自监督学习，生成多模态表示以提升模型性能。提出基于rank loss的策略，显著提高细粒度任务的表现。同时，通过生成挑战性负样本和新方法控制视觉语言模型，改善图像描述和推理能力。探索CLIP对虚假特征的依赖，提出组合对齐方法，以提升图像与文本的对应关系理解。