基于蒙特卡洛框架的序列预测中经过校准的不确定性估计

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本文提出了一种改进的噪声感知训练方法,针对嘈杂文本数据和OCR输出,通过序列对序列模型生成实证误差。利用OCR引擎训练的大型平行文本语料库,建立了真实世界噪声序列标注基准。该方法在错误序列标注数据集上优于传统技术,为未来研究提供支持,并开源相关代码和数据。

🎯

关键要点

  • 提出了一种改进的噪声感知训练方法,针对嘈杂文本数据和OCR输出。
  • 通过序列对序列模型生成实证误差,从无误文本翻译为有误文本。
  • 利用OCR引擎生成的大型平行文本语料库进行训练。
  • 针对错误序列标注数据集提出了多种真实世界的噪声序列标注基准。
  • 通过学习基于噪声语言模型的嵌入,克服文本输入不完美时的数据稀疏性问题。
  • 该方法在错误序列标注数据集上优于传统的噪声生成和错误修正技术。
  • 为未来的鲁棒性研究提供支持,并开源相关代码、嵌入和数据转换脚本。
➡️

继续阅读