L3Cube-IndicNews:印度语言的基于新闻的短文本和长文档分类数据集
原文中文,约800字,阅读约需2分钟。发表于: 。本研究介绍了 L3Cube-IndicNews,一个以新闻标题和文章为重点的多语种文本分类语料库,针对印度区域语言提供高质量的数据集。我们的工作集中在 10 种重要的 Indic 语言上,包括印地语、孟加拉语、马拉地语、泰卢固语、泰米尔语、古吉拉特语、卡纳达语、奥迪亚语、马拉雅拉姆语和旁遮普语。每个新闻数据集都包括 10 个或更多的新闻类别。L3Cube-IndicNews 提供了 3...
L3Cube-IndicNews是一个多语种文本分类语料库,重点关注新闻标题和文章,提供高质量的印度区域语言数据集。数据集包括10种Indic语言,每个语言有10个或更多的新闻类别。研究使用4种模型对数据集进行评估,为开发印度区域语言主题分类模型提供了可能。数据集和模型已公开共享。