NSINA:斯巴达的新闻语料库
💡
原文中文,约400字,阅读约需1分钟。
📝
内容提要
这篇文章是第一篇全面分析面向Sinhala文本分类的预训练语言模型性能的研究。研究发现XLM-R是最好的模型,基于RoBERTa的单语Sinhala模型在Sinhala方面更优越。研究还提供了关于使用Sinhala文本分类的预训练模型的建议,并推出了新的注释数据集和预训练模型。
🎯
关键要点
- 这篇文章是第一篇全面分析面向Sinhala文本分类的预训练语言模型性能的研究。
- 研究发现XLM-R是包含Sinhala的预训练多语言模型中最好的模型。
- 基于RoBERTa的单语Sinhala模型在Sinhala文本分类方面表现更优越。
- 预训练语言模型在微调时为Sinhala文本分类设定了强大的基线。
- 这些模型在标记数据不足的情况下仍具有鲁棒性。
- 研究提供了关于使用Sinhala文本分类的预训练模型的建议。
- 推出了新的注释数据集和预训练模型,以支持未来的Sinhala文本分类研究。
➡️