PDF-MVQA:基于 PDF 的视觉问答多模信息检索数据集

针对长篇研究期刊文章等富有文本内容的视觉丰富文档,我们提出了 PDF-MVQA,旨在解决现有研究主要关注稀缺文本的现实世界文档的问题,而在理解多个页面之间的层次语义关系以定位多模态组件方面仍面临挑战。我们的贡献包括介绍了一个全面的 PDF 文档视觉问答数据集,用于研究文本主导文档中的语义层次布局结构。我们还提出了新的视觉丰富文档问答框架,同时考虑文档布局中的文本内容和关系,将页面级别理解扩展到整个多页文档。通过这项工作,我们旨在提高现有视觉和语言模型在处理视觉丰富文档视觉问答时的能力。

相关推荐 去reddit讨论