Jina AI ·

JinaVDR：具有20种语言和95个任务的新视觉文档检索基准

💡 原文英文，约1500词，阅读约需6分钟。

📝

内容提要

JinaVDR是一个新基准，用于评估模型在检索多语言、复杂布局的视觉文档方面的表现，结合文本、图表和图像，通过多种任务反映真实世界文档的复杂性和多样性。

🎯

🔎

JinaVDR基准涵盖20种语言，反映了全球文档检索的多样性。这种多语言支持不仅有助于提升模型在不同语言环境下的表现，也为研究人员提供了更广泛的测试场景，尤其是在非英语文档的检索能力上。

JinaVDR的评估结果显示，许多嵌入模型在处理视觉文档时表现不佳，尤其是在复杂布局和非英语数据集上。这提示研究人员在开发新模型时，需要特别关注这些领域的性能，以提升实际应用中的检索效果。

构建JinaVDR时采用了多种技术手段，包括手动注释和合成查询生成。这种多样化的方法确保了基准的全面性和真实性，使得评估结果更具参考价值，能够更好地反映实际文档检索的复杂性。

❓

JinaVDR是一个新基准，用于评估模型在检索多语言、复杂布局的视觉文档方面的表现。

JinaVDR涵盖20种语言和95个任务，涉及历史文档、软件文档、医疗记录等多个领域。

JinaVDR通过视觉问答和关键词查询来评估模型的检索能力。

JinaVDR超越了以往基准的局限性，能够更有效地评估视觉复杂文档的检索能力。

构建JinaVDR采用了重新利用现有基准、手动注释PDF数据集和生成合成查询等多种技术。

评估结果显示，许多嵌入模型在处理视觉文档任务时表现不佳，尤其是在非英语和结构化文档数据集上。

🏷️