IFCap:基于图像检索和频率实体过滤的零样本字幕生成
原文中文,约500字,阅读约需2分钟。发表于: 。该研究针对现有文本训练方法在图像字幕生成中的模式差距问题,提出了一种名为图像样式检索的新方法,能够有效对齐文本与视觉特征。此外,论文引入了频率实体过滤技术来显著提升字幕质量,综合这些技术形成了一个统一框架IFCap,实验证明该方法在零样本字幕生成中显著超越了最新的先进技术。
我们提出了一种协议,通过未标注视频进行文本到视频检索训练,不依赖视频标签,但利用有标签的图像。使用图像专家模型如CLIP,通过文本到图像检索和图像字幕模型为未标注视频提供监督。通过自动标记视频帧,实现文本到视频检索训练,效果超过CLIP的零样本学习基准。实验在ActivityNet、MSR-VTT和MSVD数据集上验证了方法的有效性。