小红花·文摘

本文研究了弱监督下的视频句子时间定位，提出了多种模型和方法，包括基于回归的双模态交互、跨模态注意力模块和常识感知对齐框架，均在Charades-STA和ActivityNet Captions数据集上表现优异。此外，提出的VTG-GPT和VTG-LLM模型显著提升了视频时间定位的准确性和效率。