本研究探讨了合成数据在后光学字符识别领域的应用,通过实验评估数据量、增强和合成数据生成方法对模型性能的影响。引入了一种新的算法,利用计算机视觉特征检测算法计算字形相似度,用于构建后光学字符识别合成数据。实验证明像ByT5这样的模型可以显著降低字符错误率(CER),而合成数据生成方法在低资源语言方面表现出优势。
本文提出了一种基于罗马拼音和在1,078种不同语言上训练的声学模型的MMS Zero-shot方法。相较最佳先前方法,MMS Zero-shot将平均字符错误率降低了46%,而我们的方法在评估语言中没有使用任何标记数据,仅有2.5倍的领域内监督基线方法的错误率。
该文章介绍了NAF-DPM生成框架,用于恢复损坏文档的原始质量。该方法通过引入高效无线激活的网络和快速求解常微分方程的采样器,减少了推断时间。实验证明,该方法在像素级和感知相似度度量方面达到了最先进的性能,并且增强了OCR系统在转录被我们框架加强的真实文档图像时的字符错误率。
本文介绍了一种基于神经网络的会话自动语音识别模型,使用潜变量模块学习会话角色偏好和主题连贯性,并使用主题模型来预测主题中的单词。实验结果显示,该模型在两个汉语任务上相对字符错误率降低了最多12%。
完成下面两步后,将自动完成登录并继续当前操作。