小红花·文摘

本文研究了弱监督下的视频句子时间定位，提出了多种模型和方法，包括基于回归的双模态交互、跨模态注意力模块和常识感知对齐框架，均在Charades-STA和ActivityNet Captions数据集上表现优异。此外，提出的VTG-GPT和VTG-LLM模型显著提升了视频时间定位的准确性和效率。

BriefGPT - AI 论文速递 ·

该论文提出了一种基于回归模型的方法，通过提取文本查询中的语义短语，反映查询与视频视觉特征的双模态交互，显著提高了时态动作定位的预测效果。研究表明，该方法在多个数据集上优于现有技术，并提出了新的边界回归范式和视觉-语言预训练模型，验证了其有效性。

BriefGPT - AI 论文速递 ·

本文设计了一种高效的全局-局部对齐方法，结合多模式视频序列和文本特征，提升视频检索性能。研究利用CLIP模型获取视频表示，提出动态提示调整方法和基于回归模型的双模态交互，均在多个基准测试中取得了先进效果。

BriefGPT - AI 论文速递 ·