质量确实重要:对网络挖掘平行语料库的质量和实用性的详细研究
原文中文,约400字,阅读约需1分钟。发表于: 。我们对两种低资源语言(英语 - 僧伽罗语、英语 - 泰米尔语和僧伽罗语 - 泰米尔语)的网络挖掘语料库的质量进行了详细分析。我们根据相似度度量对每个语料库进行了排序,并对排名的语料库的不同部分进行了内在和外在评估。我们表明,不同部分的网络挖掘语料库之间存在显著的质量差异,而且质量在不同语言和数据集之间存在变化。我们还表明,对于某些网络挖掘数据集,使用最高排名的 25k...
本文分析了两种低资源语言的网络挖掘语料库质量,并评估了排名语料库的不同部分。研究发现,不同部分的语料库质量存在差异,且在不同语言和数据集间有变化。此外,研究还发现,使用最高排名部分训练的神经机器翻译模型在某些网络挖掘数据集上与人工策划的数据集媲美。