小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种名为SeLIP的对比学习框架,旨在解决医学图像分析中的标注数据不足问题。通过结合图像和放射学发现,增强了对比学习。实验结果表明,该模型在图像-文本检索、分类和图像分割等任务中表现优异,强调了文本相似性在医学图像基础模型构建中的重要性。

SeLIP: Similarity Enhanced Contrastive Language-Image Pretraining for Multi-modal Head MRI

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-25T00:00:00Z

本文探讨了通过CLIP编码和对比学习提升多模态语言模型(MLLMs)在图像标题生成和分类中的性能,提出了VeCLIP方法,强调数据质量和多样性,显著改善了图像-文本对齐。研究还展示了新模型在多语言图像-文本检索中的有效性,表明视觉表示学习仍需解决。

LLM2CLIP:强大的语言模型解锁更丰富的视觉表征

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z

本文提出了一种基于预训练视觉-语言模型的图像-文本检索方法,旨在满足机器人在日常生活支持和安全任务中对环境和物体状态的识别需求。通过优化权重,该方法提高了状态识别的精确度,并扩展了可识别的状态类型,如透明门的开关状态和水龙头的水流状态。

Robotic State Recognition and Image-to-Text Retrieval Task Based on Pre-Trained Vision-Language Model and Black-Box Optimization

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-30T00:00:00Z

本文介绍了“文兰”项目的研究进展,重点在于通过BriVL模型和跨模态对比学习实现多模态预训练。团队建立了中文多源图像文本语料库RUC-CAS-WenLan,实验结果表明BriVL在多项任务中优于UNITER和CLIP。此外,提出了多种预训练方法,如SemVLP、MVPTR和TCL,在图像-文本检索和视觉问答等任务中表现出色。

CMAL:一种新颖的跨模态关联学习框架用于视觉-语言预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-16T00:00:00Z

本文提出了一种多语言嵌入框架,通过将图像和文本嵌入到统一的向量空间中,实现高效的图像文本检索。研究表明,稀疏表示和多模态大型语言模型(MLLMs)能够提升检索性能,改善推理速度和准确性,鼓励对MLLMs的进一步研究。

在多模态大型语言模型崛起时代重新思考稀疏词汇表示用于图像检索

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

本文介绍了多种视觉语言模型的创新方法,如SimVLM、HiVLP、VLUE、Re-ViLM、FLAIR、ViLTA和UrFound。这些模型通过弱监督数据和新训练策略,提升了图像-文本检索、生成和理解的性能,展现了强大的泛化能力和高效的计算表现,尤其在少样本情况下表现优异。

ViLReF:一种中文视觉-语言视网膜基础模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-20T00:00:00Z

本文探讨了多种基于神经网络的语义学习方法,如鲁棒视觉-语义联合嵌入、翻译评估、知识图谱嵌入、内容推荐和句子相关性模型。这些方法在图像-文本检索、句子匹配和推荐系统中表现出色,具有较强的竞争力和有效性。

网络搜索中语义嵌入模型的成对判断形式化

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-08T00:00:00Z

本文探讨了图像-文本检索(ITR)的评估管道及其脆弱性,并提出改进方案。研究提出了一种高效的文本到视频检索方法,结合多粒度视觉特征学习和二阶段检索架构,性能与现有方法相当且速度快50倍。此外,提供了细粒度图像检索模型设计指南和新颖的检索框架,显著提升了检索准确性和效率。

FiCo-ITR:用于比较性能分析的细粒度和粗粒度图像 - 文本检索的桥接

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-29T00:00:00Z

本文探讨了利用数字档案进行机器学习的新方法,包括光学字符识别、物体检测和布局分析。研究展示了图像-文本检索和洞察提取的有效性,提出了新数据集SIMAT和多模态蕴含分类器,提升了图像文本检索的准确度。通过数据预处理和模型评估,增强了视觉模型对文本信息的理解能力,并提出了新的数据过滤方法T-MARS,显著提高了图像检索性能。

大规模图书收藏的图片 - 文本匹配

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-29T00:00:00Z

本文介绍了多种改进的对比学习模型,如ECLIP、CyCLIP和RankCLIP,这些模型解决了语义偏移和匹配问题,提升了目标检测、零样本分类和图像文本检索的性能。研究表明,这些模型在多个基准测试中表现优异,尤其在复杂图像和文本匹配方面显著提高了准确性和鲁棒性。

文本与图像不相融:用于异常检测的偏差校正语言 - 图像相似度得分

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-24T00:00:00Z

CommerceMM 是一种多模态模型,具备商业主题理解能力,支持图像-文本检索等多种任务。UNIMO 是统一的单模态预训练架构,提升视觉和文本理解。i-Code 提供自我监督的预训练框架,结合视觉、语音和语言模态。此外,研究提出了 OmniBind 框架,解决模态组合不匹配问题,提升多模态学习性能。

探索全模态大规模预训练的极限

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-13T00:00:00Z

本研究提出了TCL视觉-语言预训练框架,通过交叉模式对齐和自我监督提升学习效果,在图像-文本检索和视觉问答任务中表现优异。研究还探讨了无监督预训练方法和多级交互范式,显著提高了模型性能,减少了对齐数据的需求,增强了视觉模型对文本信息的理解能力。

通过潜在压缩学习在交替图像文本数据上进行视觉模型预训练

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

本文介绍了CG-VLM、VaLM和TCL等视觉-语言模型的研究进展,强调通过对比学习和生成方法实现视觉与语言的有效对齐。这些模型在图像-文本检索和视觉问答等任务中表现优异,显著提升了常识推理和对齐准确性。

视觉对齐中的图像识别:优先考虑视觉相似性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-28T00:00:00Z

本研究提出了多种数据增强技术,如Mix3D和DoubleMix,以提高机器学习模型在多模态任务中的性能。通过结合2D图像和3D点云信息,增强对比学习,显著提升了模型在文本到3D检索等应用中的效果。此外,研究还探讨了新方法JM3D和MixGen,进一步优化了3D表示学习和图像文本检索的性能。

TripletMix: 三维理解的三元组数据增强

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-28T00:00:00Z

本文提出了一种多模式表示学习框架(MRLF),用于融合社交帖子中的不同模态信息进行位置推断,实验结果显示位置预测准确。此外,研究了多模态融合方法,识别社交媒体中视频与文本标题的语义不一致,分类准确率达到60.5%。还探讨了假新闻检测和图像-文本检索等多模态任务,提出多种新方法,在多个数据集上表现优异。

基于相似度引导的多模态融合 Transformer 在社交媒体中的语义地点预测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-09T00:00:00Z

本文介绍了多模态大型语言模型(MLLMReID),通过细调和指导学习优化人员再识别任务,实验证明其优越性。研究展示了MLLMs在视觉语言表示学习中的应用,提升了图像文本检索性能,并提出了多种新方法以增强多模态任务效果。

利用 MLLM 的能力进行可迁移的文本到图像人物再识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-08T00:00:00Z

本文探讨了多模态大型语言模型(MLLMs)的视觉感知能力和推理性能。研究表明,通过提高数据质量和引入专家混合知识机制,MLLMs在图像文本检索中显著提升了性能。同时,攻击者可利用视觉对抗样本影响LLM的工具使用,存在安全风险。此外,MLLM在图像分类任务上的表现仍需改进,提出了新框架和模型以增强多模态学习效果。

多模态大语言模型的能量 - 延迟操控:冗长样本

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-25T00:00:00Z

本文介绍了一种新方法,通过结合视觉信息和大型语言模型生成图像标题,显著提高了图像-文本检索的效果。研究提出了CapEnrich和CapsFusion等框架,旨在提升多模态数据的质量和效率,解决图像字幕生成中的难题。实验结果显示,这些方法在性能和样本效率上均有显著提升。

FlexCap: 在图像中生成丰富、本地化和灵活的标题

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-18T00:00:00Z

本文探讨了多模态大型语言模型(MLLMs)在视觉语言表示学习中的应用,强调合成数据对模型性能的提升。研究表明,合成数据训练显著提高了模型在图像文本检索和理解非物体类词汇的能力,同时保持零样本准确度。实验结果验证了该方法在多个基准测试中的优越性,展示了合成数据在多模态模型训练中的潜力。

Synth$^2$: 用合成标题和图像嵌入提升视觉 - 语言模型

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-03-12T00:00:00Z

本文介绍了多模态大型语言模型(MLLMs)如何通过提高数据质量来增强视觉语言表示学习。使用MLLMs扩展每个图像的多个标题,并通过“文本切割”方法来防止偏见和内在标题风格。在微调和零样本设置下,图像文本检索的R@1提升分别为5.6〜35.0%和16.8〜46.1%。零样本结果与目标数据集上的微调相媲美。鼓励更多对MLLMs的多方面使用的探索。

MLLMReID: 基于多模态大型语言模型的人员再识别

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-01-24T00:00:00Z
  • <<
  • <
  • 1 (current)
  • 2
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码