手写文件的端到端信息提取:理解 1880 年至 1940 年的巴黎结婚记录
原文中文,约500字,阅读约需1分钟。发表于: 。EXO-POPP 项目旨在建立一个包含法国巴黎及其郊区 1880 年至 1940 年之间的 30 万份婚姻记录的综合数据库,其中包括超过 13 万多个扫描的双页图像。该论文介绍了 M-POPP 数据集,这是 M-POPP 数据库的一个子集,用于手写和印刷文件的全页文本识别和信息提取,并已公开提供。通过从页面图像直接进行手写文本识别和信息提取,我们提出了一种完整的端到端架构,该架构是从...
EXO-POPP项目旨在建立一个包含法国巴黎及其郊区1880年至1940年之间的30万份婚姻记录的综合数据库。该论文介绍了M-POPP数据库的一个子集,用于手写和印刷文件的全页文本识别和信息提取,并已公开提供。通过从页面图像直接进行手写文本识别和信息提取,提出了一种完整的端到端架构,并将其作为M-POPP数据集的基准。还评估并比较了不同的命名实体编码策略对识别手写文本和提取信息的全页性能的影响。