该论文提出了一种新方法,通过大规模视觉和语言模型生成视频字幕,实验结果显示在多个数据集上CIDEr提升了4%至20%。同时,介绍了InternVid数据集,旨在增强视频-文本编码能力,并展示了在视频字幕挑战中的有效性。
完成下面两步后,将自动完成登录并继续当前操作。