BriefGPT - AI 论文速递 ·

CLASSLA-web: 含有语言和体裁标注的南斯拉夫语言可比网页语料库

💡 原文中文，约1400字，阅读约需4分钟。

📝

内容提要

本文介绍了基于Stanza的南斯拉夫语言自动注释流水线CLASSLA-Stanza，强调其在多语言处理中的高性能和新功能。同时，研究探讨了语料库创建决策对多语言数据质量的影响，尤其是对代表性不足语言的潜在排除风险。

🎯

❓

CLASSLA-Stanza相对于Stanza在多语言处理上表现出一致的高性能，并在所有支持的任务上优于或扩展了其父流水线Stanza。

通过独立语言识别系统的一致性、基于哈希的去重和特定位置的异常检测三种方法来改善子语料库质量。

语料库创建决策可能会无意中排除代表性不足的人口，从而影响多语言数据的质量。

最新版本2.1的CLASSLA-Stanza能够高效处理网络数据，并在多种语言和方言上表现出一致的高性能。

评估结果表明，每个清理阶段都提高了子语料库的有效性，但改进在语言和人口之间分布不均匀。

CLASSLA-Stanza在多语言处理中的应用前景广阔，尤其是在处理代表性不足语言时，能够提高数据质量和处理效率。

🏷️