L3Cube-IndicNews:印度语言的基于新闻的短文本和长文档分类数据集

💡 原文中文,约800字,阅读约需2分钟。
📝

内容提要

L3Cube-IndicNews是一个多语种文本分类语料库,重点关注新闻标题和文章,提供高质量的印度区域语言数据集。数据集包括10种Indic语言,每个语言有10个或更多的新闻类别。研究使用4种模型对数据集进行评估,为开发印度区域语言主题分类模型提供了可能。数据集和模型已公开共享。

🎯

关键要点

  • L3Cube-IndicNews是一个多语种文本分类语料库,专注于印度区域语言的新闻标题和文章。
  • 数据集涵盖10种Indic语言,包括印地语、孟加拉语、马拉地语等,每种语言有10个或更多新闻类别。
  • 提供3个不同的数据集:短标题分类(SHC)、长文档分类(LDC)和长段落分类(LPC),以适应不同文档长度。
  • 在所有数据集上使用一致的标签,并进行了基于长度的深度分析。
  • 使用4种模型进行评估,包括单语BERT和多语言Indic句子BERT(IndicSBERT)。
  • 该研究为印度区域语言的主题分类模型开发提供了可能,并扩展了可用的文本分类数据集。
  • 由于各语言之间标签的高度重叠,数据集也是进行跨语言分析的良好资源。
  • 数据集和模型已公开共享。
➡️

继续阅读