小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文介绍了“文兰”项目的研究进展,重点在于通过BriVL模型和跨模态对比学习实现多模态预训练。团队建立了中文多源图像文本语料库RUC-CAS-WenLan,实验结果表明BriVL在多项任务中优于UNITER和CLIP。此外,提出了多种预训练方法,如SemVLP、MVPTR和TCL,在图像-文本检索和视觉问答等任务中表现出色。

CMAL:一种新颖的跨模态关联学习框架用于视觉-语言预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

本文提出了一种多语言嵌入框架,通过将图像和文本嵌入到统一的向量空间中,实现高效的图像文本检索。研究表明,稀疏表示和多模态大型语言模型(MLLMs)能够提升检索性能,改善推理速度和准确性,鼓励对MLLMs的进一步研究。

在多模态大型语言模型崛起时代重新思考稀疏词汇表示用于图像检索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

本文介绍了多种改进的对比学习模型,如ECLIP、CyCLIP和RankCLIP,这些模型解决了语义偏移和匹配问题,提升了目标检测、零样本分类和图像文本检索的性能。研究表明,这些模型在多个基准测试中表现优异,尤其在复杂图像和文本匹配方面显著提高了准确性和鲁棒性。

文本与图像不相融:用于异常检测的偏差校正语言 - 图像相似度得分

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-24T00:00:00Z

本研究提出了多种数据增强技术,如Mix3D和DoubleMix,以提高机器学习模型在多模态任务中的性能。通过结合2D图像和3D点云信息,增强对比学习,显著提升了模型在文本到3D检索等应用中的效果。此外,研究还探讨了新方法JM3D和MixGen,进一步优化了3D表示学习和图像文本检索的性能。

TripletMix: 三维理解的三元组数据增强

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-28T00:00:00Z

本文介绍了多模态大型语言模型(MLLMReID),通过细调和指导学习优化人员再识别任务,实验证明其优越性。研究展示了MLLMs在视觉语言表示学习中的应用,提升了图像文本检索性能,并提出了多种新方法以增强多模态任务效果。

利用 MLLM 的能力进行可迁移的文本到图像人物再识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-08T00:00:00Z

本文探讨了多模态大型语言模型(MLLMs)的视觉感知能力和推理性能。研究表明,通过提高数据质量和引入专家混合知识机制,MLLMs在图像文本检索中显著提升了性能。同时,攻击者可利用视觉对抗样本影响LLM的工具使用,存在安全风险。此外,MLLM在图像分类任务上的表现仍需改进,提出了新框架和模型以增强多模态学习效果。

多模态大语言模型的能量 - 延迟操控:冗长样本

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-25T00:00:00Z

本文探讨了多模态大型语言模型(MLLMs)在视觉语言表示学习中的应用,强调合成数据对模型性能的提升。研究表明,合成数据训练显著提高了模型在图像文本检索和理解非物体类词汇的能力,同时保持零样本准确度。实验结果验证了该方法在多个基准测试中的优越性,展示了合成数据在多模态模型训练中的潜力。

Synth$^2$: 用合成标题和图像嵌入提升视觉 - 语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-12T00:00:00Z

本文介绍了多模态大型语言模型(MLLMs)如何通过提高数据质量来增强视觉语言表示学习。使用MLLMs扩展每个图像的多个标题,并通过“文本切割”方法来防止偏见和内在标题风格。在微调和零样本设置下,图像文本检索的R@1提升分别为5.6〜35.0%和16.8〜46.1%。零样本结果与目标数据集上的微调相媲美。鼓励更多对MLLMs的多方面使用的探索。

MLLMReID: 基于多模态大型语言模型的人员再识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-24T00:00:00Z

Wikipedia-based Image Text(WIT)数据集包含37.6百万个实体丰富的图像文本示例,可用于多模态模型的预训练和图像文本检索等下游任务。WIT数据集有四个主要优势:规模大、多语种、覆盖的概念和实体比以前的数据集更加多样化,并提供一个非常具有挑战性的真实世界的测试集。

我的大数据中有什么?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-31T00:00:00Z

UC2是一个跨语言跨模态表示学习框架,通过引入其他语言的图像标题扩充数据集,提出两个新的预训练任务,实现了新的最先进状态。在多语言图像文本检索和多语言视觉问答基准上表现优异。

双视图课程优化输运用于跨语言跨模态检索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-11T00:00:00Z

本文提出了一种测试时反馈方法,用于解决视觉-语言模型输出与任务目标不匹配的问题。通过采用CLIP作为奖励模型,在图像分类、图像文本检索和图像标题生成等任务中进行训练。实验证明,这种方法可以显著提高不同视觉-语言模型的结果。

AnoVL:面向统一零样本异常定位的视觉语言模型适应

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-30T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码