小红花·文摘

本研究提出了LoTLIP模型，旨在改善语言-图像预训练在长文本理解中的不足。通过长文本标签重标定和角落标记的引入，模型在保持短文本理解能力的同时，显著提升了长文本的理解能力和图像检索性能。

LoTLIP: Improving Language-Image Pre-training for Long Text Understanding

BriefGPT - AI 论文速递 ·

本文介绍了高斯掩模化（GLIP）技术，通过屏蔽图像补丁提升语言-图像预训练模型的性能。GLIP基于快速语言-图像预训练（FLIP），使用高斯分布替代随机屏蔽，适用于无明显中心焦点的图像数据集。此外，研究提出了医学语言-图像预训练（MLIP）框架，结合补丁-句子匹配和遮蔽对比学习策略，提高医学图像文本数据的利用效率。

高效的视觉 - 语言预训练：基于聚类遮挡

BriefGPT - AI 论文速递 ·

本文介绍了一种新的训练方法DeCLIP，用于对比语言-图像预训练，能够在较少数据下实现60.4%的零样本准确率。研究还提出了数据选择方法和改进的对比学习框架，显著提升了模型性能，特别是在零样本分类任务中表现优异。

CatLIP: 在 Web 规模的图文数据上 2.7 倍速度预训练的 CLIP 级别视觉识别准确性

BriefGPT - AI 论文速递 ·