Matina: A Large-Scale 73B Token Persian Text Corpus
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究推出了Matina语料库,包含72.9B标记,解决了波斯语数据集稀缺问题。该语料库经过预处理和去重,确保数据质量,为波斯语自然语言处理模型的发展奠定基础。
🎯
关键要点
-
本研究推出了Matina语料库,包含72.9B标记。
-
Matina语料库旨在解决波斯语数据集稀缺的问题。
-
该语料库经过预处理和去重,确保了数据质量。
-
Matina语料库为波斯语自然语言处理模型的发展奠定了基础。
-
该语料库具有促进未来波斯语NLP研究的潜力。
🏷️