误差范数截断:对文本生成模型进行数据噪声下的鲁棒训练
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文提出了一种改进的噪声感知训练方法,利用 OCR 引擎生成大型平行文本语料库进行训练,针对错误序列标注数据集提出了多种真实世界的噪声序列标注基准。该方法在错误的序列标注数据集上优于基线噪声生成和错误修正技术,为未来的鲁棒性研究提供了帮助。作者提供了开源代码、嵌入和数据转换脚本。
🎯
关键要点
- 提出了一种改进的噪声感知训练方法,处理嘈杂的文本数据或OCR输出。
- 通过序列对序列模型实现从无误文本到有误文本的实证误差生成。
- 利用OCR引擎生成大型平行文本语料库进行训练。
- 针对错误序列标注数据集提出多种真实世界的噪声序列标注基准。
- 学习基于噪声语言模型的嵌入,克服文本输入不完美时的数据稀疏性问题。
- 该方法在错误的序列标注数据集上优于基线噪声生成和错误修正技术。
- 为未来的鲁棒性研究提供了帮助,并提供了开源代码、嵌入和数据转换脚本。
➡️