小红花·文摘

该论文提出了多种新的视频-语言模型和方法，旨在提升视频理解和时间句子定位的性能。研究包括去耦合空间-时间编码器、细粒度语义对齐网络和时空图推理网络等，实验结果表明这些方法在视频问答、字幕生成和段落定位等任务上取得了显著提升。