BriefGPT - AI 论文速递 ·

DreamLIP：长描述文本的语言 - 图像预训练

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

本文提出了一种数据选择方法，通过保留图像与标题的交叉协方差，提升了对比语言-图像预训练模型的泛化性能。实验证明，该方法在多个数据集上显著提高了准确度，尤其在医学图像文本数据的应用中表现优异，提出的医学语言-图像预训练框架（MLIP）有效减少冗余并保留语义。

🎯

❓

DreamLIP提出了一种数据选择方法，通过保留图像与标题的交叉协方差，提高了对比语言-图像预训练模型的泛化性能。

MLIP框架通过补丁-句子匹配和遮蔽对比学习策略，有效减少冗余并保留语义，从而提高医学图像文本数据的利用效率。

实验结果显示，DreamLIP在多个数据集上显著提高了准确度，尤其在医学图像文本数据应用中表现优异。

DreamLIP在零/少样本分类和少样本分割任务中表现出较大的优势，提升了医学图像文本数据的利用效率。

DreamLIP通过引入遮蔽对比学习策略和语义完整性估计，有效减少图像中的冗余数据。

DreamLIP在ConceptualCaptions3M和ConceptualCaptions12M等多个数据集上进行了实验。

🏷️