小红花·文摘

本文提出了使用图神经网络进行视频和文本信息的语义对齐，解决语言查询相关的时间间隔识别任务。通过将其转化为基于算法的图匹配问题，并采用图匹配层进行跨模态上下文建模和多模态融合。使用VLG-Net匹配视频和查询图，并使用掩码时刻注意力池生成时刻候选项。在ActivityNet-Captions、TACoS和DiDeMo三个数据集上，展示了优于现有技术水平的性能。