IFCap:基于图像检索和频率实体过滤的零样本字幕生成
BriefGPT - AI 论文速递 · 2024-09-26T00:00:00Z
我们提出了一种协议,通过未标注视频进行文本到视频检索训练,不依赖视频标签,但利用有标签的图像。使用图像专家模型如CLIP,通过文本到图像检索和图像字幕模型为未标注视频提供监督。通过自动标记视频帧,实现文本到视频检索训练,效果超过CLIP的零样本学习基准。实验在ActivityNet、MSR-VTT和MSVD数据集上验证了方法的有效性。
原文中文,约500字,阅读约需2分钟。