手写文件的端到端信息提取:理解 1880 年至 1940 年的巴黎结婚记录
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
EXO-POPP项目旨在建立一个包含法国巴黎及其郊区1880年至1940年之间的30万份婚姻记录的综合数据库。该论文介绍了M-POPP数据库的一个子集,用于手写和印刷文件的全页文本识别和信息提取,并已公开提供。通过从页面图像直接进行手写文本识别和信息提取,提出了一种完整的端到端架构,并将其作为M-POPP数据集的基准。还评估并比较了不同的命名实体编码策略对识别手写文本和提取信息的全页性能的影响。
🎯
关键要点
- EXO-POPP项目旨在建立一个包含1880年至1940年间法国巴黎及其郊区的30万份婚姻记录的综合数据库。
- 该项目包括超过13万份扫描的双页图像。
- 论文介绍了M-POPP数据集,这是M-POPP数据库的一个子集,专注于手写和印刷文件的全页文本识别和信息提取。
- 提出了一种完整的端到端架构,用于从页面图像直接进行手写文本识别和信息提取。
- 该架构是从DAN进行了适应,并展示了在Esposalles上实现全页信息提取的最新技术水平。
- 评估并比较了不同的命名实体编码策略对手写文本识别和信息提取的全页性能的影响。
🏷️
标签
➡️