NSINA:斯巴达的新闻语料库

💡 原文中文,约400字,阅读约需1分钟。
📝

内容提要

这篇文章是第一篇全面分析面向Sinhala文本分类的预训练语言模型性能的研究。研究发现XLM-R是最好的模型,基于RoBERTa的单语Sinhala模型在Sinhala方面更优越。研究还提供了关于使用Sinhala文本分类的预训练模型的建议,并推出了新的注释数据集和预训练模型。

🎯

关键要点

  • 这篇文章是第一篇全面分析面向Sinhala文本分类的预训练语言模型性能的研究。
  • 研究发现XLM-R是包含Sinhala的预训练多语言模型中最好的模型。
  • 基于RoBERTa的单语Sinhala模型在Sinhala文本分类方面表现更优越。
  • 预训练语言模型在微调时为Sinhala文本分类设定了强大的基线。
  • 这些模型在标记数据不足的情况下仍具有鲁棒性。
  • 研究提供了关于使用Sinhala文本分类的预训练模型的建议。
  • 推出了新的注释数据集和预训练模型,以支持未来的Sinhala文本分类研究。
➡️

继续阅读