小红花·文摘

本文提出了一种改进的噪声感知训练方法，利用 OCR 引擎生成大型平行文本语料库进行训练，针对错误序列标注数据集提出了多种真实世界的噪声序列标注基准。该方法在错误的序列标注数据集上优于基线噪声生成和错误修正技术，为未来的鲁棒性研究提供了帮助。作者提供了开源代码、嵌入和数据转换脚本。