μgat:通过提供多页上下文来改善单页文档解析

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

EXO-POPP项目建立了一个包含法国巴黎及其郊区1880年至1940年婚姻记录的数据库。M-POPP数据集用于手写和印刷文件的文本识别和信息提取,并已公开提供。Esposalles展示了该架构的信息提取能力,并评估了不同的命名实体编码策略对全页性能的影响。

🎯

关键要点

  • EXO-POPP项目建立了一个包含1880年至1940年间法国巴黎及其郊区的30万份婚姻记录的数据库。
  • 该数据库包括超过13万多个扫描的双页图像。
  • M-POPP数据集是M-POPP数据库的子集,用于手写和印刷文件的文本识别和信息提取,并已公开提供。
  • 提出了一种完整的端到端架构,用于从页面图像直接进行手写文本识别和信息提取。
  • 通过在Esposalles上实现全页信息提取的最新技术,展示了该架构的信息提取能力。
  • 评估并比较了不同的命名实体编码策略对全页性能的影响。
➡️

继续阅读