该研究提出了一种跨层任务解耦与精炼(CLTDR)方法,旨在解决时态动作定位中分类与定位任务的矛盾。通过集成视频特征金字塔中的语义强特征与边界感知特征,该方法有效分离了这两项任务,并利用轻量化的门控多粒度模块提升特征提取效果。实验结果显示,该方法在多个基准数据集上表现优异,具有显著的有效性和潜在影响。
该论文提出了一种基于回归模型的方法,通过提取文本查询中的语义短语,反映查询与视频视觉特征的双模态交互,显著提高了时态动作定位的预测效果。研究表明,该方法在多个数据集上优于现有技术,并提出了新的边界回归范式和视觉-语言预训练模型,验证了其有效性。
完成下面两步后,将自动完成登录并继续当前操作。