本研究综述了手写文本识别的发展历程,从早期的启发式方法到现代深度学习模型,概述了现有方法、基准和数据集,并指出了研究中的挑战,为研究人员提供了发展方向。
EXO-POPP项目旨在建立一个包含法国巴黎及其郊区1880年至1940年之间的30万份婚姻记录的综合数据库。该论文介绍了M-POPP数据库的一个子集,用于手写和印刷文件的全页文本识别和信息提取,并已公开提供。通过从页面图像直接进行手写文本识别和信息提取,提出了一种完整的端到端架构,并将其作为M-POPP数据集的基准。还评估并比较了不同的命名实体编码策略对识别手写文本和提取信息的全页性能的影响。
本文研究了一种名为空间上下文自我监督学习(Spatial Context-based SSL)的方法,并探索了该方法在手写文本识别(HTR)中的应用和优化。实验表明,该方法推动了HTR领域自我监督学习的最新技术进展。
完成下面两步后,将自动完成登录并继续当前操作。