流式视频密集字幕
原文中文,约200字,阅读约需1分钟。发表于: 。提出了一种用于密集视频字幕生成的理想模型,能够处理长时间视频输入、预测丰富详细的文本描述,并且能在整个视频处理完成之前生成输出,通过引入聚类处理令其能够处理任意长的视频,并设计了一种流式解码算法使模型能够提前进行预测,实验证明了该模型在三个密集视频字幕生成基准数据集上优于现有的最先进模型。
本文提出了一种新颖的密集视频字幕框架,通过建模视频中事件的时间依赖性和利用先前事件的视觉和语言上下文,实现连贯的叙述。该框架由事件序列生成网络和序列视频字幕网络组成,利用强化学习进行训练,并在事件和剧集两个级别上进行两级奖励以实现更好的上下文建模。在ActivityNet Captions数据集上取得了出色的表现。