统一的静态和动态网络:用于视频定位的高效时域滤波

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了使用图神经网络进行视频和文本信息的语义对齐,解决语言查询相关的时间间隔识别问题。通过图匹配层进行跨模态上下文建模和多模态融合,使用VLG-Net匹配视频和查询图,并使用掩码时刻注意力池生成时刻候选项。在三个数据集上展示了优于现有技术水平的性能。

🎯

关键要点

  • 提出使用图神经网络进行视频和文本信息的语义对齐。
  • 解决语言查询相关的时间间隔识别问题。
  • 将任务转化为基于算法的图匹配问题。
  • 采用图匹配层进行跨模态上下文建模和多模态融合。
  • 使用视频 - 语言图匹配网络(VLG-Net)匹配视频和查询图。
  • 使用掩码时刻注意力池生成时刻候选项。
  • 在ActivityNet-Captions、TACoS和DiDeMo三个数据集上展示优于现有技术的性能。
🏷️

标签

➡️

继续阅读