KazParC: 机器翻译用的哈萨克平行语料库

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

KazParC是一个用于哈萨克语、英语、俄语和土耳其语机器翻译的并行语料库,包含371,902个不同领域的平行句子。研究还开发了一种名为Tilmash的神经机器翻译模型,其性能在某些情况下超过了Google Translate和Yandex Translate。KazParC和Tilmash可在GitHub上下载。

🎯

关键要点

  • KazParC是一个用于哈萨克语、英语、俄语和土耳其语机器翻译的并行语料库。
  • KazParC是首个也是最大的公开可用语料库,包含371,902个不同领域的平行句子。
  • KazParC是通过人工翻译帮助开发的。
  • 研究开发了一种名为Tilmash的神经机器翻译模型。
  • Tilmash在某些情况下的性能达到或超过了Google Translate和Yandex Translate。
  • 性能评估使用了标准指标,如BLEU和chrF。
  • KazParC和Tilmash可在GitHub上以CC BY 4.0许可证下载。
➡️

继续阅读