小红花·文摘

本研究提出了一种新方法，通过视觉帧级门控机制和跨模态对齐损失，提升视频帧与文本查询的匹配效果，提高了VTG基准测试中的表现，强调了整体文本理解在视频定位中的重要性。