上下文利用的光学字符识别校正与预训练语言模型
发表于: 。本文针对历史印刷媒体档案数字化过程中光学字符识别(OCR)错误的问题,提出了上下文利用的OCR校正方法(CLOCR-C),利用基于变换器的语言模型改进OCR质量。研究表明,一些语言模型显著降低了错误率,并通过提供社会文化背景提升了校正效果,展示了CLOCR-C在提升现有数字档案质量方面的潜在影响。
本文针对历史印刷媒体档案数字化过程中光学字符识别(OCR)错误的问题,提出了上下文利用的OCR校正方法(CLOCR-C),利用基于变换器的语言模型改进OCR质量。研究表明,一些语言模型显著降低了错误率,并通过提供社会文化背景提升了校正效果,展示了CLOCR-C在提升现有数字档案质量方面的潜在影响。