统一的静态和动态网络:用于视频定位的高效时域滤波
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了使用图神经网络进行视频和文本信息的语义对齐,解决语言查询相关的时间间隔识别问题。通过图匹配层进行跨模态上下文建模和多模态融合,使用VLG-Net匹配视频和查询图,并使用掩码时刻注意力池生成时刻候选项。在三个数据集上展示了优于现有技术水平的性能。
🎯
关键要点
- 提出使用图神经网络进行视频和文本信息的语义对齐。
- 解决语言查询相关的时间间隔识别问题。
- 将任务转化为基于算法的图匹配问题。
- 采用图匹配层进行跨模态上下文建模和多模态融合。
- 使用视频 - 语言图匹配网络(VLG-Net)匹配视频和查询图。
- 使用掩码时刻注意力池生成时刻候选项。
- 在ActivityNet-Captions、TACoS和DiDeMo三个数据集上展示优于现有技术的性能。
🏷️
标签
➡️