推进后期光学字符识别校正:合成数据的比较研究
原文中文,约300字,阅读约需1分钟。发表于: 。本研究探讨了合成数据在后光学字符识别领域的应用,通过实验评估数据量、增强和合成数据生成方法对模型性能的影响。此外,我们引入了一种新的算法,利用计算机视觉特征检测算法计算字形相似度,用于构建后光学字符识别合成数据。通过在多种语言上进行实验,包括一些低资源语言,我们证明了像 ByT5...
本研究探讨了合成数据在后光学字符识别领域的应用,通过实验评估数据量、增强和合成数据生成方法对模型性能的影响。引入了一种新的算法,利用计算机视觉特征检测算法计算字形相似度,用于构建后光学字符识别合成数据。实验证明像ByT5这样的模型可以显著降低字符错误率(CER),而合成数据生成方法在低资源语言方面表现出优势。