BriefGPT - AI 论文速递 ·

L3Cube-IndicNews：印度语言的基于新闻的短文本和长文档分类数据集

💡 原文中文，约800字，阅读约需2分钟。

📝

内容提要

L3Cube-IndicNews是一个多语种文本分类语料库，重点关注新闻标题和文章，提供高质量的印度区域语言数据集。数据集包括10种Indic语言，每个语言有10个或更多的新闻类别。研究使用4种模型对数据集进行评估，为开发印度区域语言主题分类模型提供了可能。数据集和模型已公开共享。

🎯

关键要点

L3Cube-IndicNews是一个多语种文本分类语料库，专注于印度区域语言的新闻标题和文章。
数据集涵盖10种Indic语言，包括印地语、孟加拉语、马拉地语等，每种语言有10个或更多新闻类别。
提供3个不同的数据集：短标题分类（SHC）、长文档分类（LDC）和长段落分类（LPC），以适应不同文档长度。
在所有数据集上使用一致的标签，并进行了基于长度的深度分析。
使用4种模型进行评估，包括单语BERT和多语言Indic句子BERT（IndicSBERT）。
该研究为印度区域语言的主题分类模型开发提供了可能，并扩展了可用的文本分类数据集。
由于各语言之间标签的高度重叠，数据集也是进行跨语言分析的良好资源。
数据集和模型已公开共享。

🏷️

标签

L3Cube-IndicNews 印度印度区域语言多语种文本分类数据集模型

➡️

继续阅读

维特根斯坦语言游戏：彻底击碎本质主义思维陷阱
语言游戏揭穿本质主义骗局，你还在找事物的唯一答案吗？你还在追问本质吗？维特根斯坦的哲学颠覆了传统本质主义，他通过语言游戏和家族相似性概念指出，事物没有固...
GKE Security Blueprint Joins Growing List of Cloud AI Frameworks
Google Cloud has published a new blueprint setting out how organisations shou...
前员工实名举报导致上市受阻？小红书终于回应了
【TechWeb】7月22日消息，据财新网报道，针对近期流传的IPO消息，小红书回应称，相关信息均不属实，目前没有收到任何上市的确定信息。今年6月中旬，有...
AI驱动的CLO zFab面料测量套件开放全球供应
（全球TMT 2026年07月22日讯）CLO虚拟时尚宣布，AI驱动的面料数字化解决方案CLO zFab面料测 […]
AI 圈今天最大的瓜：GPT-6 越狱攻击，被 GLM 5.2 揪出了
「GPT-6」为了考试作弊，黑进了别人的服务器#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。
IBM与亚湾超算将联手推出一体化AI平台
(全球TMT 2026年07月22日讯)IBM与鸿海科技集团旗下的亚湾超算（Visionbay.ai）在新加坡 […]