IFCap:基于图像检索和频率实体过滤的零样本字幕生成
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
我们提出了一种协议,通过未标注视频进行文本到视频检索训练,不依赖视频标签,但利用有标签的图像。使用图像专家模型如CLIP,通过文本到图像检索和图像字幕模型为未标注视频提供监督。通过自动标记视频帧,实现文本到视频检索训练,效果超过CLIP的零样本学习基准。实验在ActivityNet、MSR-VTT和MSVD数据集上验证了方法的有效性。
🎯
关键要点
- 提出了一种协议,通过未标注视频进行文本到视频检索训练,不依赖视频标签。
- 利用有标签的图像,通过图像专家模型如CLIP进行训练。
- 使用文本到图像检索和图像字幕模型为未标注视频提供监督。
- 通过自动标记视频帧,实现文本到视频检索训练,效果超过CLIP的零样本学习基准。
- 在ActivityNet、MSR-VTT和MSVD数据集上验证了方法的有效性。
➡️