CLASSLA-web: 含有语言和体裁标注的南斯拉夫语言可比网页语料库
💡
原文中文,约500字,阅读约需1分钟。
📝
内容提要
本文介绍了斯拉夫南部语言空间中的多语言网络语料库,包括斯洛文尼亚、克罗地亚、波斯尼亚、黑山、塞尔维亚、马其顿和保加利亚。该语料库包含了来自2600万个文档的130亿个文本标记,并通过多语言X-GENRE分类器增强了文档级别的体裁信息。经过体裁分析发现,各语言社区的经济实力是最主要的体裁类别变化的解释。
🎯
关键要点
- 本文介绍了斯拉夫南部语言空间中的多语言网络语料库,包括斯洛文尼亚、克罗地亚、波斯尼亚、黑山、塞尔维亚、马其顿和保加利亚。
- 该语料库包含了来自2600万个文档的130亿个文本标记。
- 语料库的可比性通过统一的爬取设置和相同的爬取和后处理技术得到保证。
- 所有语料库都经过了CLASSLA-Stanza语言处理管道的语言注释。
- 文档级别的体裁信息通过基于Transformer的多语言X-GENRE分类器增强。
- 体裁分析表明,各语言社区的经济实力是主要的体裁类别变化的解释。
- 来自较不发达国家的网络语料库主要由新闻文章构成,而经济更发达国家的网络语料库则包含更多推广和观点性文本。
➡️