μgat:通过提供多页上下文来改善单页文档解析
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
EXO-POPP项目建立了一个包含法国巴黎及其郊区1880年至1940年婚姻记录的数据库。M-POPP数据集用于手写和印刷文件的文本识别和信息提取,并已公开提供。Esposalles展示了该架构的信息提取能力,并评估了不同的命名实体编码策略对全页性能的影响。
🎯
关键要点
- EXO-POPP项目建立了一个包含1880年至1940年间法国巴黎及其郊区的30万份婚姻记录的数据库。
- 该数据库包括超过13万多个扫描的双页图像。
- M-POPP数据集是M-POPP数据库的子集,用于手写和印刷文件的文本识别和信息提取,并已公开提供。
- 提出了一种完整的端到端架构,用于从页面图像直接进行手写文本识别和信息提取。
- 通过在Esposalles上实现全页信息提取的最新技术,展示了该架构的信息提取能力。
- 评估并比较了不同的命名实体编码策略对全页性能的影响。
🏷️
标签
➡️