印欧语系错误修正的大规模人工标注语料库 DISCO
原文中文,约400字,阅读约需1分钟。发表于: 。消除话语中填充词、重复和修正等不流畅元素的过程是后处理自动语音识别(ASR)输出、在下游语言理解任务之前的关键步骤。我们提供了一个高质量的人工标注的多语言不流畅纠正语料库,涵盖了四种重要的印欧语言:英语、印地语、德语和法语。在四种语言的全面结果分析中,我们获得了 97.55(英语)、94.29(印地语)、95.89(德语)和 92.97(法语)的 F1...
该文介绍了一个高质量的多语言不流畅纠正语料库,涵盖了英语、印地语、德语和法语。作者证明了不流畅纠正对下游任务的益处,并展示了与最先进的机器翻译系统结合使用时BLEU得分平均提高了5.65个点。作者还发布了运行实验的代码和注释数据集。