Matina:一个大规模73B标记的波斯语文本语料库
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究利用Matina语料库创建了一个包含72.9B标记的新波斯语数据集,解决了波斯语数据集稀缺的问题,为自然语言处理模型的发展奠定了基础。
🎯
关键要点
- 本研究解决了波斯语数据集稀缺的问题。
- 通过引入Matina语料库,创建了一个包含72.9B标记的新波斯语数据集。
- 该语料库经过精心的预处理和去重,以确保数据质量。
- 为波斯语自然语言处理模型的发展提供了基础。
- 该数据集具有促进未来波斯语NLP研究的潜力。
➡️