本文提出了使用图神经网络进行视频和文本信息的语义对齐,解决语言查询相关的时间间隔识别任务。通过将其转化为基于算法的图匹配问题,并采用图匹配层进行跨模态上下文建模和多模态融合。使用VLG-Net匹配视频和查询图,并使用掩码时刻注意力池生成时刻候选项。在ActivityNet-Captions、TACoS和DiDeMo三个数据集上,展示了优于现有技术水平的性能。
完成下面两步后,将自动完成登录并继续当前操作。