小红花·文摘

本研究提出了一种名为SeLIP的对比学习框架，旨在解决医学图像分析中的标注数据不足问题。通过结合图像和放射学发现，增强了对比学习。实验结果表明，该模型在图像-文本检索、分类和图像分割等任务中表现优异，强调了文本相似性在医学图像基础模型构建中的重要性。

SeLIP: Similarity Enhanced Contrastive Language-Image Pretraining for Multi-modal Head MRI

BriefGPT - AI 论文速递 ·

本文提出了一种新方法，利用预训练的视觉-语言模型提升机器人在日常生活中对环境和物体状态的识别精度，简化模型管理，并扩展可识别的状态类型。

基于预训练视觉-语言模型和黑箱优化的机器人状态识别与图像-文本检索任务

BriefGPT - AI 论文速递 ·

本论文通过引入VISLA基准测试评估语言模型的语义和词汇理解能力，结果显示现有最先进的语言模型在理解语义细节方面存在挑战。通过三个与图像相关的语义任务对视觉-语言模型和单模态语言模型进行评估，发现语言模型编码器对语义和词汇变化更敏感。论文提出了统一的图像-文本和文本-文本检索任务的评估方法，并在词汇改动存在的条件下评估语言模型的语义变化。

可解释的视觉 - 语言对齐的统一词汇表示

BriefGPT - AI 论文速递 ·

本文介绍了多模态大型语言模型（MLLMs）如何通过提高数据质量来增强视觉语言表示学习。使用MLLMs扩展每个图像的多个标题，并通过“文本切割”方法来防止偏见和内在标题风格。在微调和零样本设置下，图像文本检索的R@1提升分别为5.6〜35.0％和16.8〜46.1％。零样本结果与目标数据集上的微调相媲美。鼓励更多对MLLMs的多方面使用的探索。

基于 LVLM 的多模态表示学习在视觉位置识别中的应用

BriefGPT - AI 论文速递 ·

本文介绍了一种高效的迁移学习方法，将自然领域的视觉-语言知识转移到遥感领域的图像-文本检索任务上。通过预训练的CLIP模型、多模态遥感适配器和混合多模态对比学习目标，解决了遥感数据中高内部相似性的问题。实证研究结果表明，该方法在RSITR任务上具有应用潜力，可以节省训练成本并提高检索性能，为RS视觉-语言任务提供新思路和见解。

M$^2$IST: 多模式交互侧调节用于记忆效率的指称表达理解

BriefGPT - AI 论文速递 ·

本文介绍了一种高效的迁移学习方法，将自然领域的视觉-语言知识转移到遥感领域的图像-文本检索任务上。通过预训练的CLIP模型、多模态遥感适配器和混合多模态对比学习目标，解决了遥感数据中高内部相似性的问题。实证研究表明该方法具有应用潜力，可节省训练成本并提高检索性能，为RS视觉-语言任务提供新思路和见解。

超越融合：一种用于遥感图像 - 文本检索的多尺度对齐方法

BriefGPT - AI 论文速递 ·

本文介绍了多模态大型语言模型（MLLMs）如何通过提高数据质量来增强视觉语言表示学习。使用 MLLMs 扩展每个图像的多个标题，并通过“文本切割”方法来防止偏见和内在标题风格的引入。在图像文本检索中，在微调和零样本设置下，分别获得了5.6%至35.0%和16.8%至46.1%的R@1提升。零样本结果与目标数据集上的微调相媲美。鼓励更多对MLLMs的多方面使用的探索。

利用 MLLM 的能力进行可迁移的文本到图像人物再识别

BriefGPT - AI 论文速递 ·

本文介绍了一种高效的迁移学习方法，将自然领域的视觉-语言知识转移到遥感领域的图像-文本检索任务上。通过预训练的CLIP模型、多模态遥感适配器和混合多模态对比学习目标，解决了遥感数据中高内部相似性的问题。实证研究结果表明该方法具有应用潜力，可以节省训练成本，提高检索性能，为RS视觉-语言任务提供新思路和见解。

ELiTe: 高效的图像到 LiDAR 的知识转移用于语义分割

BriefGPT - AI 论文速递 ·

CreamFL是一个支持多模态联邦学习的框架，提高了全局模型的复杂度和数据容量。它使用公共数据集进行知识交流，并通过全局本地交叉模态集成策略来聚合客户端表示。在图像-文本检索和视觉问答任务上的测试结果表明，CreamFL比目前流行的联邦学习方法更好。

个性化脑肿瘤分割中的联邦特异编码器和多模态锚点

BriefGPT - AI 论文速递 ·

MLLMReID: 基于多模态大型语言模型的人员再识别

BriefGPT - AI 论文速递 ·

Wikipedia-based Image Text（WIT）数据集包含37.6百万个实体丰富的图像文本示例，可用于多模态模型的预训练和图像文本检索等下游任务。WIT数据集有四个主要优势：规模大、多语种、覆盖的概念和实体比以前的数据集更加多样化，并提供一个非常具有挑战性的真实世界的测试集。

我的大数据中有什么？

BriefGPT - AI 论文速递 ·

UC2是一个跨语言跨模态表示学习框架，通过引入其他语言的图像标题扩充数据集，提出两个新的预训练任务，实现了新的最先进状态。在多语言图像文本检索和多语言视觉问答基准上表现优异。

双视图课程优化输运用于跨语言跨模态检索

BriefGPT - AI 论文速递 ·

本文提出了一种测试时反馈方法，用于解决视觉-语言模型输出与任务目标不匹配的问题。通过采用CLIP作为奖励模型，在图像分类、图像文本检索和图像标题生成等任务中进行训练。实验证明，这种方法可以显著提高不同视觉-语言模型的结果。

AnoVL：面向统一零样本异常定位的视觉语言模型适应

BriefGPT - AI 论文速递 ·