弱监督视频时刻定位的反事实跨模态推理

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文研究了语言引导定位视频中相关片段的问题,并提出了跨模态注意力模块和新的回归损失函数来提高定位精度。在Charades-STA和ActivityNet Captions数据集上超越了最先进的方法。

🎯

关键要点

  • 研究语言引导定位视频中相关片段的问题
  • 提出跨模态注意力模块 (CMA)
  • 提出新的回归损失函数以提高定位精度
  • 在 Charades-STA 和 ActivityNet Captions 数据集上超越最先进的方法
➡️

继续阅读