误差范数截断:对文本生成模型进行数据噪声下的鲁棒训练
原文中文,约300字,阅读约需1分钟。发表于: 。我们提出了一种名为 Error Norm Truncation (ENT) 的鲁棒性增强方法,通过截取噪声数据来更准确地评估数据质量,该方法考虑了非目标标记的分布,通过在语言建模、机器翻译和文本摘要等方面的综合实验证明,将 ENT 应用于文本生成模型可以提高生成质量并增强模型的鲁棒性。
本文提出了一种改进的噪声感知训练方法,利用 OCR 引擎生成大型平行文本语料库进行训练,针对错误序列标注数据集提出了多种真实世界的噪声序列标注基准。该方法在错误的序列标注数据集上优于基线噪声生成和错误修正技术,为未来的鲁棒性研究提供了帮助。作者提供了开源代码、嵌入和数据转换脚本。