小红花·文摘

从多模态大语言模型中引导音频嵌入

Jina AI ·

Meta AI开源感知编码器视听(PE-AV)：为SAM音频和多模态检索提供支持的视听编码器

实时互动网 ·

Amazon Nova Multimodal Embeddings：最先进的代理 RAG 和语义搜索嵌入模型

亚马逊AWS官方博客 ·

Amazon Nova 多模态嵌入模型实战指南

亚马逊AWS官方博客 ·

通过偏好对齐指导跨模态表示的多模态大语言模型先验

Apple Machine Learning Research ·

本研究提出了Sat2Sound，一个用于声景映射的多模态表示学习框架。该框架通过视觉-语言模型生成声景描述，并利用对比学习实现卫星图像与音频的跨模态检索，展示了新的声景合成应用，提供沉浸式声学体验。

Sat2Sound: A Unified Framework for Zero-Shot Soundscape Mapping

BriefGPT - AI 论文速递 ·

本研究提出了一种新的生成式跨模态检索框架SemCORE，解决了现有方法在语义信息方面的不足。通过结构化自然语言标识符和生成语义验证策略，SemCORE提升了语义理解能力，并在多个数据集上显著提高了检索性能。

SemCORE: A Semantic-Enhanced Generative Cross-Modal Retrieval Framework

BriefGPT - AI 论文速递 ·

本研究提出了新型视觉语言基础模型LRSCLIP及数据集LRS2M，解决了遥感视觉语言模型在长文本处理和短文本信息不足方面的“幻觉”问题，显著提升了跨模态检索的精度。

LRSCLIP：一种对齐遥感图像与长文本的视觉语言基础模型

BriefGPT - AI 论文速递 ·

ICLR 2025 | 四川大学提出Test-time Adaptation新范式，突破查询偏移挑战

机器之心 ·

跨模态检索：它为何对多模态人工智能至关重要

The New Stack ·

本研究提出CS-Aligner框架，解决多模态对齐中的分布差异问题。通过结合柯西－施瓦茨散度与互信息，实现更精确的视觉语言分布对齐，实验结果表明其在文本到图像生成及跨模态检索中表现优异。

Distributional Visual-Language Alignment Based on Cauchy-Schwarz Divergence

BriefGPT - AI 论文速递 ·

该研究提出了一种新的动态适配器（DASD），有效解决了资源匮乏语言中的跨模态检索问题。实验结果表明，DASD在图像-文本和视频-文本数据集上表现优异，显著提升了跨语言跨模态检索性能。

动态适配器与语义解耦用于跨语言跨模态检索

BriefGPT - AI 论文速递 ·

该研究提出FLEX-CLIP方法，解决传统少样本跨模态检索中的特征退化和数据不平衡问题。通过生成伪样本和融合CLIP特征，实验结果显示在四个基准数据集上的性能提高了7%至15%。

FLEX-CLIP: Feature-Level Generation Network Enhanced CLIP for X-shot Cross-Modal Retrieval

BriefGPT - AI 论文速递 ·

本研究提出了一种名为最近邻规范化（NNN）的方法，旨在提升大规模预训练模型在图像描述、视觉问答和跨模态检索中的性能。该方法无需额外训练，显著改善了文本与图像检索的效果，具有广泛的应用潜力。

Nearest Neighbor Normalization Improves Multimodal Retrieval

BriefGPT - AI 论文速递 ·

本文介绍了一种结合视觉和文本数据的跨模态检索模型，针对餐品及食谱进行建模，并在Recipe1M数据集上验证了其优越性能。此外，研究提出了逆向烹饪系统和多模态API等新方法，以提升食谱生成和个性化，展示了食品计算领域的广泛应用潜力。

ChefFusion：集成食谱和食品图像生成的多模态基础模型

BriefGPT - AI 论文速递 ·

该论文提出了一种新的声学嵌入方案sound-word2vec，应用于文本检索和电影制作等任务。研究探讨了无监督神经网络模型在语音与图像的语义关联，提出了基于双流网络的算法用于声源定位，并通过自监督学习提升性能。此外，介绍了Spatial LibriSpeech数据集用于训练模型，展示了在声音景观映射和跨模态检索中的优越表现。

学习空间感知的语言和音频嵌入

BriefGPT - AI 论文速递 ·

本研究探讨了多种知识蒸馏策略在CLIP模型中的应用，提升了学生模型在零样本分类和跨模态检索中的性能。提出的CLIP-benchmark和CSKD方法有效整合无标签数据，显著提高了视觉-语言任务的表现。RWKV-CLIP和LP-CLIP技术进一步增强了模型的鲁棒性和性能。

ComKD-CLIP: 针对对比性语言-图像预训练模型的全面知识蒸馏

BriefGPT - AI 论文速递 ·

本文探讨了多模态知识检索和视觉问答（VQA）模型的改进，提出了ReViz和SKURG等新方法，显著提升了检索精度和性能。研究表明，跨模态检索有助于弥合语义差距，并在多个数据集上取得了最佳成绩。

多模态的知识密集型视觉问答重新排序

BriefGPT - AI 论文速递 ·

本文探讨了计算病理学中的视觉表征学习，构建了包含50,470个属性的病理知识树，并开发了基于知识增强的视觉-语言预训练方法。研究表明，该方法在跨模态检索和零样本分类等任务中显著提升了性能。此外，提出的无监督技术CPLIP在图像和文本对齐方面表现优异，推动了病理学研究的进展。

基于文本的定量和可解释的组织病理图像分析

BriefGPT - AI 论文速递 ·

本文探讨了零样本学习在草图图像检索中的应用，提出了一种新框架，通过对比文本间接对齐素描与照片，避免了成对样本的需求。研究表明，该方法在多个数据集上表现优越，有效实现了跨模态内容检索。

用辅助文本描述的跨模态注意力对齐网络用于零样本基于素描的图像检索

BriefGPT - AI 论文速递 ·