本文介绍了一种基于查询的长视频定位和关系判别方法,利用图像语言预训练模型选择相关帧,避免构建完整知识图谱。该方法在电影级查询中表现优异,经过实验证明效果显著。同时,研究提出了LongVLM模型,通过将长视频分解为短片段,实现全面理解,并在多个基准测试中表现出色,推动了长视频理解的发展。
本文介绍了一种基于查询的长视频定位和关系判别方法,利用图像语言预训练模型来选择与查询相关的帧,免去了构建完整的电影级知识图谱的需要。该方法在两组电影级查询中取得了第一和第四名的位置,并且经过充分的实验证明其效果和鲁棒性。
完成下面两步后,将自动完成登录并继续当前操作。