弱监督视频时刻定位的反事实跨模态推理
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文研究了语言引导定位视频中相关片段的问题,并提出了跨模态注意力模块和新的回归损失函数来提高定位精度。在Charades-STA和ActivityNet Captions数据集上超越了最先进的方法。
🎯
关键要点
- 研究语言引导定位视频中相关片段的问题
- 提出跨模态注意力模块 (CMA)
- 提出新的回归损失函数以提高定位精度
- 在 Charades-STA 和 ActivityNet Captions 数据集上超越最先进的方法
➡️