COSMOS:用于视觉语言预训练的跨模态自蒸馏
📝
内容提要
本研究针对视觉语言模型(VLMs)的全局对比损失导致的关注前景物体而忽视图像其他重要信息的问题,提出了一种新颖的自监督学习框架COSMOS,通过整合文本裁剪策略和跨注意力模块来克服这一缺陷。COSMOS在多种零样本下游任务中表现出色,显著超过了以前的基线,并在视觉感知和上下文理解任务中优于基于CLIP的大型数据集训练模型。
➡️