Matina: A Large-Scale 73B Token Persian Text Corpus
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究推出了Matina语料库,包含72.9B标记,解决了波斯语数据集稀缺问题。该语料库经过预处理和去重,确保数据质量,为波斯语自然语言处理模型的发展奠定基础。
🎯
关键要点
- 本研究推出了Matina语料库,包含72.9B标记。
- Matina语料库旨在解决波斯语数据集稀缺的问题。
- 该语料库经过预处理和去重,确保了数据质量。
- Matina语料库为波斯语自然语言处理模型的发展奠定了基础。
- 该语料库具有促进未来波斯语NLP研究的潜力。
➡️