小红花·文摘

本研究提出了一种轮廓细化门框架，用于红外图像超分辨率，解决红外与可见图像模态差异的问题。通过新的光谱保真损失函数，恢复红外特征并保持光谱分布的保真度，实验结果表明该方法在视觉和感知任务中优于现有模型。

Contourlet Refinement Gate Framework for Regularized Infrared Image Super-Resolution of Thermal Spectrum Distribution

BriefGPT - AI 论文速递 ·

本文提出了TV-ProxyNet框架，解决了文本视频检索中模态差异的问题。通过将1对N关系转化为N个1对1关系，提高了查询精度和覆盖范围。实验结果显示，该方法在MSRVTT和ActivityNet Captions数据集上表现出色，改善了语义映射并减少了错误。

将1对N关系分解为N个1对1关系的文本视频检索研究

BriefGPT - AI 论文速递 ·

跨模态转移利用大型预训练模型处理不同模态任务，但模态差距影响效果。论文提出MoNA方法，通过元学习减少模态差异，改善转移。实验显示，MoNA在科学任务中表现优异，尤其在数据稀缺时。研究指出模态语义差异影响转移，MoNA通过两阶段训练优化嵌入器，提高源知识重用，增强目标任务表现。

MoNA：复用跨模态预训练模型，少样本模态的福音 | ICML'24 - 晓飞的算法工程笔记

晓飞的算法工程笔记 ·

本文研究了自监督通用音频表示学习的问题，使用联合嵌入预测架构（JEPA），通过分割mel频谱图为上下文和目标两部分，训练神经网络从上下文表示中预测目标表示。研究发现图像领域的设计选择会导致音频上的性能下降，凸显了两种模态之间的重要差异。

Stem-JEPA：一种音乐分轨兼容性预测架构

BriefGPT - AI 论文速递 ·

本文分析了使用语言-仅依据进行视觉语义模型选择的两个挑战：模态差异和能力差异，并提出了一种称为SWAB的方法来缓解这两个差距。SWAB通过最优传输捕捉开源数据集与目标数据集之间的相关性，并将有用的统计信息从开源数据集传输到目标数据集，从而增强VLM在选择中的能力估计。实验证实了SWAB在多个VLM和图像分类数据集上的有效性。

通过预测分配来建立视觉和语言空间的桥梁

BriefGPT - AI 论文速递 ·

TIPCap是一种基于文本数据的图像标题生成方法，通过减少对配对数据的依赖性、构建驱动多变量高斯分布的映射模块以缓解模态差异，并在生成标题之前引入可选的提示信息，优于其他弱监督或无监督的方法，并在常用数据集上达到了最优性能。

基于文本数据的图像标题生成与交互提示

BriefGPT - AI 论文速递 ·

本文分析了使用语言-仅依据进行视觉语义模型（VLM）选择中的两个挑战：模态差异和能力差异，并提出了一种名为SWAB的方法来缓解这两个差距。实验证明SWAB有效。

填补视觉语言模型选择中的模态和容量差距

BriefGPT - AI 论文速递 ·