小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

研究提出了一种双原型演变(DPE)方法,解决视觉语言模型在测试时无法有效积累任务特定知识的问题。DPE通过文本和视觉原型提升多模态表示的精准度,在15个基准数据集上表现优于现有方法,并提高了图像分类和文本检索任务的泛化能力和准确性。

双原型演变用于视觉语言模型的测试时泛化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

本文提出了CLIP-benchmark,用于评估CLIP及其变种,分析数据、监督和模型架构对性能的影响。研究结合对比学习与自监督学习,生成多模态表示以提升模型性能。提出基于rank loss的策略,显著提高细粒度任务的表现。同时,通过生成挑战性负样本和新方法控制视觉语言模型,改善图像描述和推理能力。探索CLIP对虚假特征的依赖,提出组合对齐方法,以提升图像与文本的对应关系理解。

提升预训练视觉语言模型的多模态能力以改善视觉语言组合性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-07T00:00:00Z

该论文提出了一种基于视频和音频数据的零样本学习方法,利用跨模态注意力学习多模态表示,并通过文本标签嵌入实现知识转移。实验结果显示,该方法在多个数据集上表现优异,超越了现有技术。

音视通用零样本学习简洁方法

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-18T00:00:00Z

SPARC是一种预训练多模态表示方法,通过序列损失和对比损失提高图像级和区域级任务的性能,同时改善模型准确性和生成图像描述的能力。

SPARO:用于视觉的稳健和组合式 Transformer 编码的选择性注意力

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-24T00:00:00Z

这项研究通过联合学习放射学图像的有效表示和多模态表示,创新性地增强了数据集,并取得了较高的准确度,推进了医学VQA的发展,并在诊断环境中开辟了实用应用的途径。

预训练视觉语言模型用于纵向胸部 X 射线的差异视觉问题回答

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-14T00:00:00Z

该研究探讨了医学领域中视觉问答的挑战,并通过联合学习放射学图像的有效表示和多模态表示,创新性地增强了数据集,取得了较高的准确度。该研究推进了医学VQA,并在诊断环境中开辟了实用应用的途径。

OmniMedVQA:医学 LVLM 的新大规模综合评估基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-02-14T00:00:00Z

本文介绍了一种使用无标签数据学习多模态表示的框架,利用无卷积的Transformer架构。通过训练Video-Audio-Text Transformer (VATT)并在多个任务中评估其性能,提取了丰富的多模态表示。VATT在视频动作识别、音频事件分类、图像分类和文本到视频检索等任务中表现出较高准确率。VATT的视觉Transformer在多个数据集上的最高准确率分别为82.1%、83.6%、72.7%和41.1%,将VATT迁移至图像分类任务时,ImageNet的最高准确率为78.7%。VATT的音频Transformer在AudioSet上实现了39.4%的mAP,并展现了模型的泛化能力。

高效多尺度多模态瓶颈变压器用于音视频分类

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-08T00:00:00Z

本文介绍了一种名为MultiModal Contrastive Learning (MMCL)的新框架,用于捕捉多模态表示中的内部和外部动态。采用对比学习技术,包括单模态对比编码和伪孪生网络,来过滤噪声和捕获跨模态动态。实验结果表明,该方法超过了现有的最先进方法。

基于图对比学习的双阶段多模态情感识别模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-03T00:00:00Z

本研究提出了一种通过相对对比学习来学习视觉和语义对齐的新方法,以实现新颖物体的描述。该方法通过设置适当的对比学习目标,将增强标签在列表中的排名作为相对相关性标签,提高了学习到的多模态表示的判别能力。在两个数据集上进行评估,显示了该方法在改进新颖物体描述的视觉语言表示方面的显著优势,证明了其有效性。

RCA-NOC: 相对比对对齐用于新颖物体字幕生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-12-11T00:00:00Z

本文介绍了一种名为MMCL的新型框架,用于捕捉多模态表示中的内部和外部动态。采用对比学习技术,包括单模态对比编码和伪孪生网络,来过滤内嵌噪声和捕获跨模态动态。设计了两种对比学习任务,实例和基于情感的对比学习,以促进预测过程并学习与情感相关的更多交互信息。在两个公共数据集上进行的广泛实验表明,该方法超过了现有的最先进方法。

DeCUR: 多模态自监督中的公共和独特表达解耦

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-11T00:00:00Z

本文提出了一种结合对比学习和自监督学习的基线模型,用于生成多模态表示。通过对比性损失和视觉自监督学习的损失函数,对齐图像和文本模态。同时,采用更有效的数据增广技术,提高了模型性能,在四个标准数据集上取得了最先进的性能。

AdvCLIP:多模态对比学习中与下游无关的对抗样本

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-14T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码