NSINA:斯巴达的新闻语料库
原文中文,约400字,阅读约需1分钟。发表于: 。本研究介绍了 NSINA,这是一个由 500,000 篇流行信拉语新闻网站上的文章构成的全面新闻语料库,并提出了三个自然语言处理任务:新闻媒体识别、新闻类别预测和新闻标题生成,旨在解决适用 LLMs 到信拉语的挑战,并为改进信拉语自然语言处理提供宝贵的资源和基准。NSINA 是迄今为止最大的信拉语新闻语料库。
这篇文章是第一篇全面分析面向Sinhala文本分类的预训练语言模型性能的研究。研究发现XLM-R是最好的模型,基于RoBERTa的单语Sinhala模型在Sinhala方面更优越。研究还提供了关于使用Sinhala文本分类的预训练模型的建议,并推出了新的注释数据集和预训练模型。