COMI-LINGUA: Expert Annotated Large-Scale Dataset for Hindi-English Code-Mixing
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了COMI-LINGUA,一个大型手动标注的数据集,旨在捕捉印地语与英语代码混合的语言细微差别。通过对100,970个实例的专家评估,揭示了现有多语言建模策略的局限性,并强调了改进代码混合文本处理能力的必要性。
🎯
关键要点
-
COMI-LINGUA是一个大型手动标注的数据集,旨在捕捉印地语与英语代码混合的语言细微差别。
-
该数据集包含100,970个实例,经过专家评估。
-
研究揭示了现有多语言建模策略的局限性。
-
强调了改进代码混合文本处理能力的必要性。
➡️