本研究提出了一种新方法,通过视觉帧级门控机制和跨模态对齐损失,提升视频帧与文本查询的匹配效果,提高了VTG基准测试中的表现,强调了整体文本理解在视频定位中的重要性。
完成下面两步后,将自动完成登录并继续当前操作。