小红花·文摘

RGNet 方法通过统一的跨模态 RG-Encoder 和稀疏采样技术，实现了对长视频中特定时刻的定位，超越了以往技术。研究中提出了 Deep Semantic Clustering Network 和 VLG-Net 等新方法，均在多个数据集上展示了优越性能，有效解决了视频时间定位的挑战。