小红花·文摘

本文介绍了一种基于查询的长视频定位和关系判别方法，利用图像语言预训练模型选择相关帧，避免构建完整知识图谱。该方法在电影级查询中表现优异，经过实验证明效果显著。同时，研究提出了LongVLM模型，通过将长视频分解为短片段，实现全面理解，并在多个基准测试中表现出色，推动了长视频理解的发展。

BriefGPT - AI 论文速递 ·

本文介绍了一种基于查询的长视频定位和关系判别方法，利用图像语言预训练模型来选择与查询相关的帧，免去了构建完整的电影级知识图谱的需要。该方法在两组电影级查询中取得了第一和第四名的位置，并且经过充分的实验证明其效果和鲁棒性。

BriefGPT - AI 论文速递 ·