研究提出了一种双原型演变(DPE)方法,解决视觉语言模型在测试时无法有效积累任务特定知识的问题。DPE通过文本和视觉原型提升多模态表示的精准度,在15个基准数据集上表现优于现有方法,并提高了图像分类和文本检索任务的泛化能力和准确性。
本文提出了CLIP-benchmark,用于评估CLIP及其变种,分析数据、监督和模型架构对性能的影响。研究结合对比学习与自监督学习,生成多模态表示以提升模型性能。提出基于rank loss的策略,显著提高细粒度任务的表现。同时,通过生成挑战性负样本和新方法控制视觉语言模型,改善图像描述和推理能力。探索CLIP对虚假特征的依赖,提出组合对齐方法,以提升图像与文本的对应关系理解。
该论文提出了一种基于视频和音频数据的零样本学习方法,利用跨模态注意力学习多模态表示,并通过文本标签嵌入实现知识转移。实验结果显示,该方法在多个数据集上表现优异,超越了现有技术。
SPARC是一种预训练多模态表示方法,通过序列损失和对比损失提高图像级和区域级任务的性能,同时改善模型准确性和生成图像描述的能力。
这项研究通过联合学习放射学图像的有效表示和多模态表示,创新性地增强了数据集,并取得了较高的准确度,推进了医学VQA的发展,并在诊断环境中开辟了实用应用的途径。
该研究探讨了医学领域中视觉问答的挑战,并通过联合学习放射学图像的有效表示和多模态表示,创新性地增强了数据集,取得了较高的准确度。该研究推进了医学VQA,并在诊断环境中开辟了实用应用的途径。
本文介绍了一种使用无标签数据学习多模态表示的框架,利用无卷积的Transformer架构。通过训练Video-Audio-Text Transformer (VATT)并在多个任务中评估其性能,提取了丰富的多模态表示。VATT在视频动作识别、音频事件分类、图像分类和文本到视频检索等任务中表现出较高准确率。VATT的视觉Transformer在多个数据集上的最高准确率分别为82.1%、83.6%、72.7%和41.1%,将VATT迁移至图像分类任务时,ImageNet的最高准确率为78.7%。VATT的音频Transformer在AudioSet上实现了39.4%的mAP,并展现了模型的泛化能力。
本文介绍了一种名为MultiModal Contrastive Learning (MMCL)的新框架,用于捕捉多模态表示中的内部和外部动态。采用对比学习技术,包括单模态对比编码和伪孪生网络,来过滤噪声和捕获跨模态动态。实验结果表明,该方法超过了现有的最先进方法。
本研究提出了一种通过相对对比学习来学习视觉和语义对齐的新方法,以实现新颖物体的描述。该方法通过设置适当的对比学习目标,将增强标签在列表中的排名作为相对相关性标签,提高了学习到的多模态表示的判别能力。在两个数据集上进行评估,显示了该方法在改进新颖物体描述的视觉语言表示方面的显著优势,证明了其有效性。
本文介绍了一种名为MMCL的新型框架,用于捕捉多模态表示中的内部和外部动态。采用对比学习技术,包括单模态对比编码和伪孪生网络,来过滤内嵌噪声和捕获跨模态动态。设计了两种对比学习任务,实例和基于情感的对比学习,以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明,该方法超过了现有的最先进方法。
本文提出了一种结合对比学习和自监督学习的基线模型,用于生成多模态表示。通过对比性损失和视觉自监督学习的损失函数,对齐图像和文本模态。同时,采用更有效的数据增广技术,提高了模型性能,在四个标准数据集上取得了最先进的性能。
完成下面两步后,将自动完成登录并继续当前操作。