印欧语系错误修正的大规模人工标注语料库 DISCO
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
该文介绍了一个高质量的多语言不流畅纠正语料库,涵盖了英语、印地语、德语和法语。作者证明了不流畅纠正对下游任务的益处,并展示了与最先进的机器翻译系统结合使用时BLEU得分平均提高了5.65个点。作者还发布了运行实验的代码和注释数据集。
🎯
关键要点
- 该文介绍了一个高质量的多语言不流畅纠正语料库,涵盖英语、印地语、德语和法语。
- 不流畅纠正是后处理自动语音识别输出的重要步骤。
- 四种语言的F1得分分别为:英语97.55,印地语94.29,德语95.89,法语92.97。
- 不流畅纠正对下游任务有益,结合最先进的机器翻译系统时,BLEU得分平均提高了5.65个点。
- 作者发布了运行实验的代码和注释数据集。
➡️