小红花·文摘

本论文介绍了一种名为R-Adapter的新型微调方法，用于提高视觉-语言预训练模型在下游任务中的性能。R-Adapter通过集成轻量级模块和自我集成技术来提高鲁棒性。论文还提出了适用于视觉-语言下游任务的MPM-NCE损失函数，以确保精确对齐和区分性特征学习。实验证明，R-Adapter方法在各种任务中取得了最先进的性能，并且使用的参数更少。

R-Adapter：零样本模型微调新突破，提升鲁棒性与泛化能力 | ECCV 2024 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

本文研究了视觉语言预训练模型（VLP）的对抗性，提出了集合级引导攻击（SGA）和协作多模态对抗攻击（Co-Attack）等新型攻击方法，显著提高了攻击成功率。实验结果表明，模态交互在增强对抗鲁棒性方面至关重要，揭示了VLP模型的脆弱性及其在实际应用中的安全隐患。

关于单模型和视觉语言预训练模型之间对抗漏洞的统一理解

BriefGPT - AI 论文速递 ·

ECCV 2024 | 让GPT-4图像理解更易出错，全新策略增强VLP模型对抗迁移性

机器之心 ·

本文提出了一种改进视觉-语言预训练模型的方法，通过多模态信息瓶颈（M2IB）学习将相关特征保留并压缩无关信息的潜在表示。M2IB在医疗保健领域的应用中提高了归因精确度和可解释性。与单模态归因方法不同，M2IB适用于多模态但无基准数据的情况，且不需要基准标签。以CLIP为例，本文证明了M2IB归因的有效性和优越性。

多模态癌症生存预测的原型信息瓶颈化与解缚

BriefGPT - AI 论文速递 ·

本文提出了一种改进视觉-语言预训练模型的方法，通过多模态信息瓶颈（M2IB）学习将相关特征保留并压缩无关信息的潜在表示。M2IB提高了视觉-语言预训练模型的归因精确度和可解释性。

图像文字表示的多模态信息瓶颈归因的视觉解释

BriefGPT - AI 论文速递 ·

本文研究了利用大规模图像-文本配对数据集进行视觉语言预训练模型的发展，解决医疗领域中缺乏数据的问题，并通过扩展图像-标签对为图像-文本对，利用多个图像和多个部分的放射学报告来提高模型性能。同时设计了两个对比损失，ICL和TCL，来学习医学图像和报告的研究级特征。该模型在相同条件下优于现有的最先进模型。

CXR-CLIP：大规模胸部 X 光照片语言 - 图像预训练

BriefGPT - AI 论文速递 ·

Kaleido-BERT是一种新型的视觉-语言预训练模型，通过对齐引导的遮盖策略和五项自监督任务进行VL预训练，实现了更好的图像-文本语义关系表示。在时装图像标注任务上展示了广泛潜力。

3D-VisTA: 预训练的 Transformer 用于 3D 视觉和文本对齐

BriefGPT - AI 论文速递 ·