MeMSVD: 使用增量 SVD 捕捉长程时域结构
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种改善视频描述生成的方法,通过建模视频帧和描述概念之间的高阶交互。该方法通过存储先前的视觉注意力,在已经看过和描述过的内容的基础上进行描述。评估结果表明,该方法优于以前的视频描述方法。
🎯
关键要点
- 提出了一种通过建模视频帧和描述概念之间的高阶交互来改善视频描述生成的方法。
- 系统通过存储先前的视觉注意力,决定在已看过和描述过的内容基础上进行描述。
- 该方法实现了更有效的局部关注,并在生成每个单词时考虑可处理的视频序列。
- 在MSVD和Charades数据集上的评估表明,该方法优于以前的视频描述方法,无需外部时间视频特征。
➡️