Matina: A Large-Scale 73B Token Persian Text Corpus

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究推出了Matina语料库,包含72.9B标记,解决了波斯语数据集稀缺问题。该语料库经过预处理和去重,确保数据质量,为波斯语自然语言处理模型的发展奠定基础。

🎯

关键要点

  • 本研究推出了Matina语料库,包含72.9B标记。
  • Matina语料库旨在解决波斯语数据集稀缺的问题。
  • 该语料库经过预处理和去重,确保了数据质量。
  • Matina语料库为波斯语自然语言处理模型的发展奠定了基础。
  • 该语料库具有促进未来波斯语NLP研究的潜力。
➡️

继续阅读