质量确实重要:对网络挖掘平行语料库的质量和实用性的详细研究
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文分析了两种低资源语言的网络挖掘语料库质量,并评估了排名语料库的不同部分。研究发现,不同部分的语料库质量存在差异,且在不同语言和数据集间有变化。此外,研究还发现,使用最高排名部分训练的神经机器翻译模型在某些网络挖掘数据集上与人工策划的数据集媲美。
🎯
关键要点
- 本文分析了两种低资源语言的网络挖掘语料库质量。
- 研究对象包括英语 - 僧伽罗语、英语 - 泰米尔语和僧伽罗语 - 泰米尔语。
- 根据相似度度量对每个语料库进行了排序。
- 不同部分的网络挖掘语料库之间存在显著的质量差异。
- 语料库质量在不同语言和数据集之间存在变化。
- 使用最高排名的25k部分训练的神经机器翻译模型在某些数据集上与人工策划的数据集媲美。
➡️