DrVideo: 基于文档检索的长视频理解

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

研究人员提出了DrVideo,一个基于文档检索的系统,用于长视频理解。通过将长视频转化为基于文本的长文档来检索关键帧并增强这些帧的信息,然后采用基于代理的迭代循环不断搜索缺失的信息、增强相关数据,并在收集足够的与问题相关的信息后以思维链的方式提供最终预测。实验证实了该方法的有效性。在多个基准测试中,DrVideo的准确性优于现有方法。

🎯

关键要点

  • 研究人员提出了DrVideo,一个基于文档检索的系统,用于长视频理解。
  • DrVideo将长视频理解问题转化为长文档理解任务,以有效利用大型语言模型的能力。
  • 系统通过将长视频转化为基于文本的长文档来检索关键帧并增强这些帧的信息。
  • 采用基于代理的迭代循环不断搜索缺失的信息和增强相关数据。
  • 在收集足够的与问题相关的信息后,以思维链的方式提供最终预测。
  • 大量实验证实了该方法的有效性,DrVideo在多个基准测试中表现优于现有方法。
  • 在EgoSchema基准测试上提高了3.8%的准确性。
  • 在MovieChat-1K break模式上提高了17.9%的准确性。
  • 在MovieChat-1K全球模式上提高了38.0%的准确性。
  • 在LLama-Vid QA数据集上提高了30.2%的准确性(超过60分钟)。
➡️

继续阅读