本文研究了弱监督下的视频句子时间定位,提出了多种模型和方法,包括基于回归的双模态交互、跨模态注意力模块和常识感知对齐框架,均在Charades-STA和ActivityNet Captions数据集上表现优异。此外,提出的VTG-GPT和VTG-LLM模型显著提升了视频时间定位的准确性和效率。
完成下面两步后,将自动完成登录并继续当前操作。