小红花·文摘

本文介绍了多层语义对齐的视觉语言预训练方法（MVPTR），强调多模态学习的协同作用。提出了X$^2$-VLM模型，优化了图像文本和视频文本任务的性能，并提出了MMStar基准以评估视觉语言模型的多模态能力，解决了数据泄漏问题。通过SIMA框架和X-VILA模型，提升了视觉与语言的对齐性和跨模态理解能力。

通过模态集成率解码大型视觉语言模型中的跨模态对齐

BriefGPT - AI 论文速递 ·

本文探讨了多语言图像标题生成和检索的方法，利用CLIP等预训练模型在多样化数据集上取得了优越表现。研究表明，机器翻译和对比学习能有效提升多语言图像检索性能，尤其在低资源语言上表现突出。RankCLIP通过自我监督学习增强了图像与文本的对齐能力，推动了视觉语言预训练的发展。

LowCLIP：将CLIP模型架构适应于低资源语言的多模态图像检索任务

BriefGPT - AI 论文速递 ·

本文探讨了多模态对比模型中的模态差距及其对比损失的影响，提出了改进的对比损失函数和新方法（如SoftCLIP、RankCLIP、Gentle-CLIP等），以提升模态间对齐和下游任务性能，尤其在零样本分类中表现突出。这些方法通过优化嵌入空间和引入自监督学习，推动了视觉语言预训练的发展。

缓解差距：研究提升 CLIP 中跨模态对齐的方法

BriefGPT - AI 论文速递 ·

本文介绍了SUPMER、MetaPrompter和MetaPrompting等基于元学习和提示调整的模型，旨在提升few-shot学习和零样本分类的性能。这些方法在多个任务上显著提高了模型的适应性和准确性，尤其在视觉语言预训练模型的微调中表现优异。

元规范化的提示学习

BriefGPT - AI 论文速递 ·

利用多模态信息的视觉语言预训练（VLP）在自然领域的视觉识别和胸部 X 射线（CXR）的医学影像诊断方面取得了重大成功。UniChest是一个征服与分割的预训练框架，旨在充分利用多个源 CXRs 的协作优势，同时减少源异质性的负面影响。

UniChest: 多源胸部 X 射线分级的征服和分割预训练

BriefGPT - AI 论文速递 ·