金鱼:对任意长视频的视觉语言理解
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
DrVideo是一个基于文档检索的长视频理解系统,通过转化为文本来检索关键帧并增强信息,通过迭代搜索缺失信息并增强数据,提供准确预测。实验证实了该方法的有效性,准确性优于现有方法。
🎯
关键要点
- DrVideo是一个基于文档检索的长视频理解系统。
- 该系统将长视频理解问题转化为长文档理解任务,以利用大型语言模型的能力。
- 通过将长视频转化为文本,检索关键帧并增强信息。
- 采用基于代理的迭代循环搜索缺失信息并增强相关数据。
- 在收集足够信息后,以思维链的方式提供最终预测。
- 大量实验证实了该方法的有效性。
- DrVideo在长视频基准测试上的准确性优于现有方法。
- 在EgoSchema基准测试上提高了3.8%的准确性。
- 在MovieChat-1K break模式上提高了17.9%的准确性。
- 在MovieChat-1K全球模式上提高了38.0%的准确性。
- 在LLama-Vid QA数据集上提高了30.2%的准确性(超过60分钟)。
➡️