本文提出视觉前提证明(VPP)任务,通过将图表问答拆解为逻辑前提,提升模型的推理能力。研究表明,模型在图表推理方面优于结构理解和数据检索,强调了推理与视觉理解结合的重要性。
本研究提出视频时间轴建模问题,通过一组相关视频创建时间轴,促进对故事内容和结构的理解。构建了YouTube-News-Timeline数据集,并提出量化指标评估方法。进一步开发和评估深度学习方法解决问题。预计为视频时间轴建模研究铺平道路。
完成下面两步后,将自动完成登录并继续当前操作。