SnapCap: 高效的快照压缩视频字幕

我们提出了一种从压缩测量直接生成字幕的新型视频字幕生成模型 SnapCap，并通过使用预训练的 CLIP 来提取与语言相关的视觉表示，实验证明我们的模型在速度和字幕质量方面优于传统的视频字幕生成方法。

本文介绍了一种名为MultiCapCLIP的零样本方法，可在多场景和多语言中生成视觉描述。该方法在四个基准测试和四种语言上相对于最先进的零样本和弱监督方法分别有4.8%和21.5%的绝对改进。

MultiCapCLIP 多场景多语言视觉描述零样本方法