小红花·文摘

该论文提出了一种新的视频培训框架，通过混洗视频解决时间偏差问题，结合交叉模态匹配和时间顺序区分，增强模型对长期时间上下文的理解。研究还探讨了视频片段定位、时空视频定位及视觉提示文本跨度本地化等方法，均在多个数据集上表现优异，超越现有技术。