小红花·文摘

本文综述了密集视频字幕生成（DVC）技术，强调事件间的相互关系和上下文建模。介绍了多种DVC框架和模型，包括基于时间依赖性和强化学习的生成网络，以及利用未标记视频进行预训练的方法。这些新方法在多个数据集上显著提升了性能，推动了DVC领域的发展。