针对深度视频理解的查询感知长视频定位和关系判别
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文介绍了一种基于查询的长视频定位和关系判别方法,利用图像语言预训练模型来选择与查询相关的帧,免去了构建完整的电影级知识图谱的需要。该方法在两组电影级查询中取得了第一和第四名的位置,并且经过充分的实验证明其效果和鲁棒性。
🎯
关键要点
- 本文介绍了一种基于查询的长视频定位和关系判别方法。
- 该方法利用图像语言预训练模型选择与查询相关的帧。
- 该方法免去了构建完整的电影级知识图谱的需要。
- 在两组电影级查询中,该方法取得了第一和第四名的位置。
- 经过充分的实验证明了该方法的效果和鲁棒性。
➡️