本论文介绍了一种名为R-Adapter的新型微调方法,用于提高视觉-语言预训练模型在下游任务中的性能。R-Adapter通过集成轻量级模块和自我集成技术来提高鲁棒性。论文还提出了适用于视觉-语言下游任务的MPM-NCE损失函数,以确保精确对齐和区分性特征学习。实验证明,R-Adapter方法在各种任务中取得了最先进的性能,并且使用的参数更少。
本文研究了视觉语言预训练模型(VLP)的对抗性,提出了集合级引导攻击(SGA)和协作多模态对抗攻击(Co-Attack)等新型攻击方法,显著提高了攻击成功率。实验结果表明,模态交互在增强对抗鲁棒性方面至关重要,揭示了VLP模型的脆弱性及其在实际应用中的安全隐患。
该文章介绍了一种针对视觉-语言预训练模型的对抗攻击方法,通过引入对抗轨迹交集区域的概念,提升对抗样本的迁移性。实验结果显示该方法在跨模型和跨任务迁移性上都有显著提升。
本文介绍了E2E-VLP,一种端到端的视觉-语言预训练模型,通过Transformer框架学习视觉表示和图像文本语义对齐。该模型整合了目标检测和图像字幕生成任务,提升了视觉学习效果,并在多个视觉-语言相关任务中表现出了有效性。
本文介绍了UrbanVLP模型,一种新颖的视觉-语言预训练模型,能提高城市规划的可解释性。UrbanVLP整合了宏观和微观层面的信息,并通过生成高质量的城市图像描述来提升可解释性。实验证明UrbanVLP在六个社会经济任务上表现出卓越性能,并通过网络平台验证了其实用性。
本文提出了一种改进视觉-语言预训练模型的方法,通过多模态信息瓶颈(M2IB)学习将相关特征保留并压缩无关信息的潜在表示。M2IB在医疗保健领域的应用中提高了归因精确度和可解释性。与单模态归因方法不同,M2IB适用于多模态但无基准数据的情况,且不需要基准标签。以CLIP为例,本文证明了M2IB归因的有效性和优越性。
本文提出了一种改进视觉-语言预训练模型的方法,通过多模态信息瓶颈(M2IB)学习将相关特征保留并压缩无关信息的潜在表示。M2IB提高了视觉-语言预训练模型的归因精确度和可解释性。
本文研究了利用大规模图像-文本配对数据集进行视觉语言预训练模型的发展,解决医疗领域中缺乏数据的问题,并通过扩展图像-标签对为图像-文本对,利用多个图像和多个部分的放射学报告来提高模型性能。同时设计了两个对比损失,ICL和TCL,来学习医学图像和报告的研究级特征。该模型在相同条件下优于现有的最先进模型。
Kaleido-BERT是一种新型的视觉-语言预训练模型,通过对齐引导的遮盖策略和五项自监督任务进行VL预训练,实现了更好的图像-文本语义关系表示。在时装图像标注任务上展示了广泛潜力。
完成下面两步后,将自动完成登录并继续当前操作。