小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本文介绍了多模态大型语言模型(MLLMs)如何通过提高数据质量来增强视觉语言表示学习。使用MLLMs扩展每个图像的多个标题,并通过“文本切割”方法来防止偏见和内在标题风格。在微调和零样本设置下,图像文本检索的R@1提升分别为5.6〜35.0%和16.8〜46.1%。零样本结果与目标数据集上的微调相媲美。鼓励更多对MLLMs的多方面使用的探索。

基于 LVLM 的多模态表示学习在视觉位置识别中的应用

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-09T00:00:00Z

本文介绍了多模态大型语言模型(MLLMs)如何通过提高数据质量来增强视觉语言表示学习。使用 MLLMs 扩展每个图像的多个标题,并通过“文本切割”方法来防止偏见和内在标题风格的引入。在图像文本检索中,在微调和零样本设置下,分别获得了5.6%至35.0%和16.8%至46.1%的R@1提升。零样本结果与目标数据集上的微调相媲美。鼓励更多对MLLMs的多方面使用的探索。

利用 MLLM 的能力进行可迁移的文本到图像人物再识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-08T00:00:00Z

本文介绍了多模态大型语言模型(MLLMs)如何通过提高数据质量来增强视觉语言表示学习。使用MLLMs扩展每个图像的多个标题,并通过“文本切割”方法来防止偏见和内在标题风格。在微调和零样本设置下,图像文本检索的R@1提升分别为5.6〜35.0%和16.8〜46.1%。零样本结果与目标数据集上的微调相媲美。鼓励更多对MLLMs的多方面使用的探索。

MLLMReID: 基于多模态大型语言模型的人员再识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-24T00:00:00Z

Wikipedia-based Image Text(WIT)数据集包含37.6百万个实体丰富的图像文本示例,可用于多模态模型的预训练和图像文本检索等下游任务。WIT数据集有四个主要优势:规模大、多语种、覆盖的概念和实体比以前的数据集更加多样化,并提供一个非常具有挑战性的真实世界的测试集。

我的大数据中有什么?

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-10-31T00:00:00Z

UC2是一个跨语言跨模态表示学习框架,通过引入其他语言的图像标题扩充数据集,提出两个新的预训练任务,实现了新的最先进状态。在多语言图像文本检索和多语言视觉问答基准上表现优异。

双视图课程优化输运用于跨语言跨模态检索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-11T00:00:00Z

本文提出了一种测试时反馈方法,用于解决视觉-语言模型输出与任务目标不匹配的问题。通过采用CLIP作为奖励模型,在图像分类、图像文本检索和图像标题生成等任务中进行训练。实验证明,这种方法可以显著提高不同视觉-语言模型的结果。

AnoVL:面向统一零样本异常定位的视觉语言模型适应

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-30T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码