BriefGPT - AI 论文速递 ·

DrVideo: 基于文档检索的长视频理解

💡 原文中文，约1800字，阅读约需5分钟。

📝

内容提要

本文介绍了一种基于查询的长视频定位和关系判别方法，利用图像语言预训练模型选择相关帧，避免构建完整知识图谱。该方法在电影级查询中表现优异，经过实验证明效果显著。同时，研究提出了LongVLM模型，通过将长视频分解为短片段，实现全面理解，并在多个基准测试中表现出色，推动了长视频理解的发展。

🎯

❓

DrVideo方法利用图像语言预训练模型选择与查询相关的帧，从而实现长视频的定位和关系判别。

LongVLM模型通过将长视频分解为短片段，维护顺序并整合全局语义信息，实现对长期视频的全面理解。

VideoTree框架利用大型语言模型的推理能力，动态提取与查询相关的信息，从而提高推理的准确性和效率。

LVBench基准测试集旨在挑战多模态模型展示长期记忆和扩展理解能力，推动长视频理解的发展。

该方法在两组电影级查询中取得了第一和第四名的位置，经过实验证明效果显著。

LongVLM模型通过分解长视频为短期片段，并使用分层令牌合并模块来编码局部特征，整合全局语义信息。

🏷️