JinaVDR:具有20种语言和95个任务的新视觉文档检索基准

JinaVDR:具有20种语言和95个任务的新视觉文档检索基准

💡 原文英文,约1500词,阅读约需6分钟。
📝

内容提要

JinaVDR是一个新基准,用于评估模型在检索多语言、复杂布局的视觉文档方面的表现,结合文本、图表和图像,通过多种任务反映真实世界文档的复杂性和多样性。

🎯

关键要点

  • JinaVDR是一个新基准,用于评估模型在检索多语言、复杂布局的视觉文档方面的表现。
  • JinaVDR结合文本、图表和图像,反映真实世界文档的复杂性和多样性。
  • 该基准涵盖20种语言和95个任务,涉及历史文档、软件文档、医疗记录、法律文本和科学论文等多个领域。
  • JinaVDR通过视觉问答和关键词查询评估模型的检索能力。
  • 构建JinaVDR采用了多种技术,包括重新利用现有基准、手动注释PDF数据集和生成合成查询。
  • 现有基准如MTEB和ViDoRe系列无法有效评估视觉复杂文档的检索能力。
  • JinaVDR的评估结果显示,许多嵌入模型在处理视觉文档任务时表现不佳,尤其是在非英语和结构化文档数据集上。
  • JinaVDR将直接集成到MTEB框架中,以便于研究人员使用。
  • 在构建基准时,进行了仔细的预处理以确保可用性和评估质量,包括大小归一化和质量过滤。
  • JinaVDR为视觉文档检索提供了全面的评估,超越了以往基准的局限性。

延伸问答

JinaVDR是什么?

JinaVDR是一个新基准,用于评估模型在检索多语言、复杂布局的视觉文档方面的表现。

JinaVDR支持哪些语言和任务?

JinaVDR涵盖20种语言和95个任务,涉及历史文档、软件文档、医疗记录等多个领域。

JinaVDR如何评估模型的检索能力?

JinaVDR通过视觉问答和关键词查询来评估模型的检索能力。

JinaVDR与现有基准相比有什么优势?

JinaVDR超越了以往基准的局限性,能够更有效地评估视觉复杂文档的检索能力。

构建JinaVDR时采用了哪些技术?

构建JinaVDR采用了重新利用现有基准、手动注释PDF数据集和生成合成查询等多种技术。

JinaVDR的评估结果显示了什么?

评估结果显示,许多嵌入模型在处理视觉文档任务时表现不佳,尤其是在非英语和结构化文档数据集上。

➡️

继续阅读