ViGT:在 Transformer 模型中具有可学习令牌的无需提议的视频定位

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了使用图神经网络进行视频和文本信息的语义对齐,解决语言查询相关的时间间隔识别任务。通过将其转化为基于算法的图匹配问题,并采用图匹配层进行跨模态上下文建模和多模态融合。使用VLG-Net匹配视频和查询图,并使用掩码时刻注意力池生成时刻候选项。在ActivityNet-Captions、TACoS和DiDeMo三个数据集上,展示了优于现有技术水平的性能。

🎯

关键要点

  • 提出使用图神经网络进行视频和文本信息的语义对齐。
  • 解决语言查询相关的时间间隔识别任务。
  • 将任务转化为基于算法的图匹配问题。
  • 采用图匹配层进行跨模态上下文建模和多模态融合。
  • 使用视频-语言图匹配网络(VLG-Net)匹配视频和查询图。
  • 使用掩码时刻注意力池生成时刻候选项。
  • 在ActivityNet-Captions、TACoS和DiDeMo三个数据集上展示优于现有技术水平的性能。
➡️

继续阅读