RoBERTurk:针对土耳其语进行 RoBERTa 的调整
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
使用BPE分词工具在土耳其语语料库上预训练RoBERTa模型,优于BERTurk模型在词性标注任务中,但在IMST数据集上表现不佳。在土库曼语的XTREME数据集上的命名实体识别任务中获得竞争性分数。公开了预训练模型和分词工具。
🎯
关键要点
-
使用BPE分词工具对RoBERTa模型进行预训练。
-
模型在土耳其语BOUN数据集上的词性标注任务中优于BERTurk模型。
-
在IMST数据集上的表现不佳。
-
在土库曼语XTREME数据集上的命名实体识别任务中获得竞争性分数。
-
仅使用较小的预训练数据。
-
公开了预训练模型和分词工具。
➡️