IFCap:基于图像检索和频率实体过滤的零样本字幕生成

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

我们提出了一种协议,通过未标注视频进行文本到视频检索训练,不依赖视频标签,但利用有标签的图像。使用图像专家模型如CLIP,通过文本到图像检索和图像字幕模型为未标注视频提供监督。通过自动标记视频帧,实现文本到视频检索训练,效果超过CLIP的零样本学习基准。实验在ActivityNet、MSR-VTT和MSVD数据集上验证了方法的有效性。

🎯

关键要点

  • 提出了一种协议,通过未标注视频进行文本到视频检索训练,不依赖视频标签。
  • 利用有标签的图像,通过图像专家模型如CLIP进行训练。
  • 使用文本到图像检索和图像字幕模型为未标注视频提供监督。
  • 通过自动标记视频帧,实现文本到视频检索训练,效果超过CLIP的零样本学习基准。
  • 在ActivityNet、MSR-VTT和MSVD数据集上验证了方法的有效性。
➡️

继续阅读