RankCLIP: 语言 - 图像一致的排序预训练

原文约300字,阅读约需1分钟。发表于:

通过在大量文本图像对上进行自我监督的对比学习,RankCLIP 在扩展 CLIP 的刚性一对一匹配框架的同时,利用模态内和跨模态的排序一致性来提高对齐过程,捕捉每种模态之间和内部的细致的多对多关系,有效提升各种下游任务的性能,尤其在零样本分类方面,显著超越现有方法,突显了 RankCLIP 在进一步推进视觉语言预训练方面的潜力。

RankCLIP是一种扩展CLIP的模型,通过自我监督的对比学习和排序一致性来提高对齐过程,提升下游任务性能,特别是零样本分类。它展示了视觉语言预训练的潜力。

相关推荐 去reddit讨论