印欧语系错误修正的大规模人工标注语料库 DISCO

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

该文介绍了一个高质量的多语言不流畅纠正语料库,涵盖了英语、印地语、德语和法语。作者证明了不流畅纠正对下游任务的益处,并展示了与最先进的机器翻译系统结合使用时BLEU得分平均提高了5.65个点。作者还发布了运行实验的代码和注释数据集。

🎯

关键要点

  • 该文介绍了一个高质量的多语言不流畅纠正语料库,涵盖英语、印地语、德语和法语。
  • 不流畅纠正是后处理自动语音识别输出的重要步骤。
  • 四种语言的F1得分分别为:英语97.55,印地语94.29,德语95.89,法语92.97。
  • 不流畅纠正对下游任务有益,结合最先进的机器翻译系统时,BLEU得分平均提高了5.65个点。
  • 作者发布了运行实验的代码和注释数据集。
➡️

继续阅读