本文介绍了一种基于多模态框架的视频时间定位方法,结合RGB图像、光流和深度图,通过transformers实现动态融合,提升了在Charades-STA和ActivityNet Captions数据集上的表现。同时,提出了记忆引导语义学习网络(MGSL-Net)以解决模型遗忘问题,并通过动态关联常见与罕见情况增强泛化能力。此外,研究探讨了多形式句子的时空视频基础问题,提出了时空图推理网络,实验结果验证了其有效性。
完成下面两步后,将自动完成登录并继续当前操作。