Matina:一个大规模73B标记的波斯语文本语料库

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究利用Matina语料库创建了一个包含72.9B标记的新波斯语数据集,解决了波斯语数据集稀缺的问题,为自然语言处理模型的发展奠定了基础。

🎯

关键要点

  • 本研究解决了波斯语数据集稀缺的问题。
  • 通过引入Matina语料库,创建了一个包含72.9B标记的新波斯语数据集。
  • 该语料库经过精心的预处理和去重,以确保数据质量。
  • 为波斯语自然语言处理模型的发展提供了基础。
  • 该数据集具有促进未来波斯语NLP研究的潜力。
➡️

继续阅读