该论文提出了多种新的视频-语言模型和方法,旨在提升视频理解和时间句子定位的性能。研究包括去耦合空间-时间编码器、细粒度语义对齐网络和时空图推理网络等,实验结果表明这些方法在视频问答、字幕生成和段落定位等任务上取得了显著提升。
完成下面两步后,将自动完成登录并继续当前操作。