RankCLIP: 语言 - 图像一致的排序预训练

原文约300字，阅读约需1分钟。发表于：。

通过在大量文本图像对上进行自我监督的对比学习，RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时，利用模态内和跨模态的排序一致性来提高对齐过程，捕捉每种模态之间和内部的细致的多对多关系，有效提升各种下游任务的性能，尤其在零样本分类方面，显著超越现有方法，突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。

RankCLIP是一种扩展CLIP的模型，通过自我监督的对比学习和排序一致性来提高对齐过程，提升下游任务性能，特别是零样本分类。它展示了视觉语言预训练的潜力。