不应仅依赖自然语言训练的明确识别
原文中文,约300字,阅读约需1分钟。发表于: 。使用基于 Transformer 的架构进行 LaTeX 文本识别,识别到存在的 “偏差” 问题并提出使用混合数据集训练的 LaTeX 打印文本识别模型,该模型在编码器中采用 Swin Transformer,解码器中采用 RoBERTa 模型。实验结果表明,该方法减小了 “偏差”,提高了文本识别的准确性和鲁棒性。对于清晰图像,模型严格遵循图像内容;对于模糊图像,它整合图像和上下文信息以产生合理的识别结果。
该文章介绍了一种使用基于Transformer的架构进行LaTeX文本识别的方法,通过混合数据集训练的模型,在编码器中采用Swin Transformer,在解码器中采用RoBERTa模型。实验结果表明,该方法提高了文本识别的准确性和鲁棒性,对于清晰图像和模糊图像都能产生合理的识别结果。