小红花·文摘

本文探讨了大型语言模型（LLMs）在视频理解中的应用潜力，介绍了基于查询的长视频定位、VideoLLM框架和高效的MuLTI模型等新方法。这些方法通过优化特征融合和视觉交互，显著提升了长视频问答的性能，并在多个基准测试中取得了优异成绩。

BriefGPT - AI 论文速递 ·

本文介绍了一种基于查询的长视频定位和关系判别方法，利用图像语言预训练模型来选择与查询相关的帧，免去了构建完整的电影级知识图谱的需要。该方法在两组电影级查询中取得了第一和第四名的位置，并且经过充分的实验证明其效果和鲁棒性。

BriefGPT - AI 论文速递 ·