小红花·文摘

本文探讨了多模态表示学习的进展，提出了多种算法和模型以实现跨模态的有效对齐和泛化。研究表明，利用大规模数据训练可以有效进行知识转移，提升文本、图像和音频等任务的表现。新方法如LanguageBind和ModaVerse显著提高了多模态理解和生成的效率，推动了相关领域的发展。

OneEncoder：一种轻量级的逐步对齐多模态框架

BriefGPT - AI 论文速递 ·

本文提出HGCLIP框架，将CLIP与图表示学习结合，利用类层次结构提升视觉识别性能。同时介绍MERU模型，增强图像与文本的层次关系，提升分类与检索任务的表现。研究探讨了多模态表示学习的多种方法，展示了在医学图像分析等领域的有效性和潜力。

图像 - 文本表示中的视觉 - 语义层级的出现

BriefGPT - AI 论文速递 ·

本研究探讨了多模态表示学习中的对称 InfoNCE 损失，提出了一种新的相似度度量方法，并通过预训练验证其有效性。结合对比学习与自监督学习，提出多种新方法，显著提升了模型在视觉-语言任务中的性能，尤其在零样本分类和图像文本检索方面表现优异。

使用背景信息非编码匹配的对比学习偏好

BriefGPT - AI 论文速递 ·

本文研究零样本数据识别，提出了一种基于多模态表示学习的ZOC方法，通过图像文本描述生成和置信度评分实现未知分类检测。实验结果表明，该方法在多个基准数据集上优于现有方案，尤其在少样本学习和OOD检测中表现突出。

CLIPScope：用贝叶斯评分增强零样本 OOD 检测

BriefGPT - AI 论文速递 ·

该研究提出了一种新的多模态表示学习方法，开发了SurgVLP模型，利用手术视频和自动生成的文本转录，优化了预训练的视觉-语言模型，显著提升了视频理解任务的性能，尤其在行动识别和文本-视频检索方面表现优越。此外，研究还介绍了基于Transformer的视觉问答系统和无监督的跨模态预训练方法，取得了最新成果。

HecVL：零样本手术阶段识别的分层视频语言预训练

BriefGPT - AI 论文速递 ·

本文提出了一种无需更改的图像源头归属方法，通过对图像生成模型进行输入反向工程，区分生成图像与真实图像。同时，研究探讨了CLIP在零样本学习中的应用，提出了基于多模态表示学习的ZOC方法，提升了未知分类检测性能。此外，结合大型语言模型和视觉语言模型，增强了对稀有背景的识别能力。

基于模型无关的少样本示例的生成图像起源归因

BriefGPT - AI 论文速递 ·

该研究提出了一种基于知识引导的双一致性网络，用于检测具有多媒体内容的谣言。该网络具有两个一致性检测子网络，可以同时捕获跨模态和内容 - 知识水平的不一致性，并在不同丢失视觉模态条件下实现鲁棒的多模态表示学习。实验结果表明，该框架在三个公共实际多媒体数据集上的表现优于最先进的基线。

VGA：用于谣言检测的视觉与图像融合注意力网络

BriefGPT - AI 论文速递 ·

频谱对多模态表示和融合更为有效：一种多模态频谱谣言检测器

BriefGPT - AI 论文速递 ·

Chinese CLIP: 中文图文对比学习预训练

Blog on Qwen ·