大规模数据集上文本识别变换器的masked自监督预训练 本研究针对文本识别变换器的预训练阶段提出了两种改进措施,从而解决了现有自监督学习方法对无标签数据的利用不足的问题。通过逐步增加掩蔽概率并修改损失函数,本研究的实验结果表明,该预训练方法在降低字符错误率方面有效,且在某些情况下,相较于迁移学习提升达30%。 数据集 自监督