IFCap：基于图像检索和频率实体过滤的零样本字幕生成

该研究针对现有文本训练方法在图像字幕生成中的模式差距问题，提出了一种名为图像样式检索的新方法，能够有效对齐文本与视觉特征。此外，论文引入了频率实体过滤技术来显著提升字幕质量，综合这些技术形成了一个统一框架IFCap，实验证明该方法在零样本字幕生成中显著超越了最新的先进技术。

我们提出了一种协议，通过未标注视频进行文本到视频检索训练，不依赖视频标签，但利用有标签的图像。使用图像专家模型如CLIP，通过文本到图像检索和图像字幕模型为未标注视频提供监督。通过自动标记视频帧，实现文本到视频检索训练，效果超过CLIP的零样本学习基准。实验在ActivityNet、MSR-VTT和MSVD数据集上验证了方法的有效性。

CLIP 实验验证文本到视频检索未标注视频自动标记