本研究提出了LoTLIP模型,旨在改善语言-图像预训练在长文本理解中的不足。通过长文本标签重标定和角落标记的引入,模型在保持短文本理解能力的同时,显著提升了长文本的理解能力和图像检索性能。
本文介绍了高斯掩模化(GLIP)技术,通过屏蔽图像补丁提升语言-图像预训练模型的性能。GLIP基于快速语言-图像预训练(FLIP),使用高斯分布替代随机屏蔽,适用于无明显中心焦点的图像数据集。此外,研究提出了医学语言-图像预训练(MLIP)框架,结合补丁-句子匹配和遮蔽对比学习策略,提高医学图像文本数据的利用效率。
本文介绍了一种新的训练方法DeCLIP,用于对比语言-图像预训练,能够在较少数据下实现60.4%的零样本准确率。研究还提出了数据选择方法和改进的对比学习框架,显著提升了模型性能,特别是在零样本分类任务中表现优异。
完成下面两步后,将自动完成登录并继续当前操作。