本文研究了弱监督下的视频句子时间定位,提出了多种模型和方法,包括基于回归的双模态交互、跨模态注意力模块和常识感知对齐框架,均在Charades-STA和ActivityNet Captions数据集上表现优异。此外,提出的VTG-GPT和VTG-LLM模型显著提升了视频时间定位的准确性和效率。
该论文提出了一种基于回归模型的方法,通过提取文本查询中的语义短语,反映查询与视频视觉特征的双模态交互,显著提高了时态动作定位的预测效果。研究表明,该方法在多个数据集上优于现有技术,并提出了新的边界回归范式和视觉-语言预训练模型,验证了其有效性。
完成下面两步后,将自动完成登录并继续当前操作。