本研究提出了一种轮廓细化门框架,用于红外图像超分辨率,解决红外与可见图像模态差异的问题。通过新的光谱保真损失函数,恢复红外特征并保持光谱分布的保真度,实验结果表明该方法在视觉和感知任务中优于现有模型。
本文提出了TV-ProxyNet框架,解决了文本视频检索中模态差异的问题。通过将1对N关系转化为N个1对1关系,提高了查询精度和覆盖范围。实验结果显示,该方法在MSRVTT和ActivityNet Captions数据集上表现出色,改善了语义映射并减少了错误。
跨模态转移利用大型预训练模型处理不同模态任务,但模态差距影响效果。论文提出MoNA方法,通过元学习减少模态差异,改善转移。实验显示,MoNA在科学任务中表现优异,尤其在数据稀缺时。研究指出模态语义差异影响转移,MoNA通过两阶段训练优化嵌入器,提高源知识重用,增强目标任务表现。
本文研究了自监督通用音频表示学习的问题,使用联合嵌入预测架构(JEPA),通过分割mel频谱图为上下文和目标两部分,训练神经网络从上下文表示中预测目标表示。研究发现图像领域的设计选择会导致音频上的性能下降,凸显了两种模态之间的重要差异。
本文分析了使用语言-仅依据进行视觉语义模型选择的两个挑战:模态差异和能力差异,并提出了一种称为SWAB的方法来缓解这两个差距。SWAB通过最优传输捕捉开源数据集与目标数据集之间的相关性,并将有用的统计信息从开源数据集传输到目标数据集,从而增强VLM在选择中的能力估计。实验证实了SWAB在多个VLM和图像分类数据集上的有效性。
TIPCap是一种基于文本数据的图像标题生成方法,通过减少对配对数据的依赖性、构建驱动多变量高斯分布的映射模块以缓解模态差异,并在生成标题之前引入可选的提示信息,优于其他弱监督或无监督的方法,并在常用数据集上达到了最优性能。
本文分析了使用语言-仅依据进行视觉语义模型(VLM)选择中的两个挑战:模态差异和能力差异,并提出了一种名为SWAB的方法来缓解这两个差距。实验证明SWAB有效。
完成下面两步后,将自动完成登录并继续当前操作。