该论文提出了一种新的视频培训框架,通过混洗视频解决时间偏差问题,结合交叉模态匹配和时间顺序区分,增强模型对长期时间上下文的理解。研究还探讨了视频片段定位、时空视频定位及视觉提示文本跨度本地化等方法,均在多个数据集上表现优异,超越现有技术。
完成下面两步后,将自动完成登录并继续当前操作。