本研究提出了DocVideoQA任务及其数据集,旨在解决文档中心视频理解中的数据稀缺和复杂性问题。通过引入DV-LLaMA模型,利用多模态学习显著提升了理解能力,测试结果优于现有模型。
完成下面两步后,将自动完成登录并继续当前操作。