摩利耶:基于语料库的殖民法国语言接触研究
💡
原文中文,约1500字,阅读约需4分钟。
📝
内容提要
本文介绍了克里奥尔语言的机器翻译研究,提供了最大的克里奥尔语数据集和41种语言的翻译模型,旨在提升克里奥尔语言的自然语言处理能力。CreoleVal基准数据集涵盖28种克里奥尔语言,促进技术包容性。MorisienMT数据集用于评估毛里求斯克里奥尔语的翻译质量,公开用于研究。
🎯
关键要点
- 提供了最大的克里奥尔语机器翻译数据集,包括14.5M句独特的克里奥尔语句子和平行翻译。
- 支持172个翻译方向的41种克里奥尔语言的机器翻译模型,模型在34个翻译方向中超过了一种专门用于克里奥尔语的模型。
- CreoleVal基准数据集涵盖28种克里奥尔语言,包含8种不同自然语言处理任务,旨在增强克里奥尔语言的研究。
- MorisienMT数据集用于评估毛里求斯克里奥尔语的翻译质量,包含英语和法语与Morisien之间的平行语料库。
- 公开的数据集旨在促进克里奥尔语言的机器翻译研究,推动技术包容性。
❓
延伸问答
克里奥尔语言的机器翻译数据集包含多少句独特的句子?
该数据集包含14.5M句独特的克里奥尔语句子和平行翻译。
CreoleVal基准数据集的主要目标是什么?
CreoleVal的目标是增强克里奥尔语言在自然语言处理和计算语言学方面的研究,促进技术包容性。
MorisienMT数据集用于评估哪种语言的翻译质量?
MorisienMT数据集用于评估毛里求斯克里奥尔语的翻译质量。
该研究提供了多少种克里奥尔语言的机器翻译模型?
研究提供了支持172个翻译方向的41种克里奥尔语言的机器翻译模型。
CreoleVal基准数据集涵盖了多少种克里奥尔语言?
CreoleVal基准数据集涵盖了28种克里奥尔语言。
研究中使用了哪些方法来测试词汇借用检测?
研究使用了两种传统的序列比较方法和一种机器学习方法来测试词汇借用检测。
➡️