研究人员提出了DrVideo,一个基于文档检索的系统,用于长视频理解。通过将长视频转化为基于文本的长文档来检索关键帧并增强这些帧的信息,然后采用基于代理的迭代循环不断搜索缺失的信息、增强相关数据,并在收集足够的与问题相关的信息后以思维链的方式提供最终预测。实验证实了该方法的有效性。在多个基准测试中,DrVideo的准确性优于现有方法。
完成下面两步后,将自动完成登录并继续当前操作。