小红花·文摘

本研究提出CLIP-Refine方法，旨在解决现代视觉语言模型中图像与文本特征的模态差距问题。通过在小型数据集上训练，实现特征空间对齐，提升零样本性能。实验结果表明，CLIP-Refine有效减轻了模态差距。

视觉语言基础模型中的后预训练用于模态对齐

BriefGPT - AI 论文速递 ·

本研究提出了后处理嵌入标准化方法I0T_post和可训练方法I0T_async，以解决CLIP在下游任务中的模态差距问题，显著减少模态差距并保持原始嵌入表示。

I0T：朝向零模态差距的嵌入标准化方法

BriefGPT - AI 论文速递 ·

CLIP模型中文本-图像模态差距的原因与意义

Jina AI ·

本研究介绍了E5-V框架，通过调整多模态大型语言模型实现多模态嵌入表征。E5-V有效地弥合了不同类型输入之间的模态差距，在多模态嵌入方面展现出强大性能。

SEA：用于多模态大语言模型的标记级视觉文本集成的监督嵌入对齐

BriefGPT - AI 论文速递 ·

本研究介绍了E5-V框架，通过调整多模态大型语言模型实现多模态嵌入表征，有效地弥合了不同类型输入之间的模态差距，展现出强大性能。实验证明E5-V在多项任务上的有效性，同时降低了训练成本。

EE-MLLM：一种数据高效和计算高效的多模态大型语言模型

BriefGPT - AI 论文速递 ·

该研究提出了一种基于小批量学习匹配框架的音频-文本检索方法，能够学习丰富、表达力强的联合嵌入空间，并在多个数据集上取得了最先进的性能。该方法还能够弥补音频和文本嵌入之间的模态差距，并在零样本声音事件检测任务中超越了其他方法。

以交通视角再审视深度语音文本检索

BriefGPT - AI 论文速递 ·

该文介绍了一种弱监督方法来训练自动音频字幕生成（AAC）模型，只需要文本数据和经过预训练的对比语言音频预训练（CLAP）模型，从而减轻了对配对目标数据的需求。该方法利用 CLAP 中音频和文本嵌入之间的相似性，通过桥接差距的策略减小音频和文本嵌入之间的模态差距。在 Clotho 和 AudioCaps 数据集上评估，相对于使用配对目标数据训练的完全监督方法，该方法可达到高达 83% 的性能水平。

基于文本 - only 训练实现的弱监督自动音频字幕生成

BriefGPT - AI 论文速递 ·

[论文阅读] BLIP2

MiaoHN's Blog ·