对比定位语言-图像预训练

Contrastive Language-Image Pre-training (CLIP) has been a celebrated method for training vision encoders to generate image/text representations facilitating various applications. Recently, CLIP...

CLIP方法用于训练视觉编码器生成图像和文本表示,但在细粒度视觉表示上有不足。本文提出CLOC方法,通过区域-文本对比损失提升CLIP的定位能力。CLOC引入可提示嵌入,设计视觉丰富的标注框架,生成大规模区域-文本伪标签,增强MLLMs在指代和定位任务中的表现。

对比定位语言-图像预训练
原文英文,约400词,阅读约需2分钟。发表于:
阅读原文