小红花·文摘

本文介绍了一种基于多模态框架的视频时间定位方法，结合RGB图像、光流和深度图，通过transformers实现动态融合，提升了在Charades-STA和ActivityNet Captions数据集上的表现。同时，提出了记忆引导语义学习网络（MGSL-Net）以解决模型遗忘问题，并通过动态关联常见与罕见情况增强泛化能力。此外，研究探讨了多形式句子的时空视频基础问题，提出了时空图推理网络，实验结果验证了其有效性。