COMI-LINGUA: Expert Annotated Large-Scale Dataset for Hindi-English Code-Mixing

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究提出了COMI-LINGUA,一个大型手动标注的数据集,旨在捕捉印地语与英语代码混合的语言细微差别。通过对100,970个实例的专家评估,揭示了现有多语言建模策略的局限性,并强调了改进代码混合文本处理能力的必要性。

🎯

关键要点

  • COMI-LINGUA是一个大型手动标注的数据集,旨在捕捉印地语与英语代码混合的语言细微差别。

  • 该数据集包含100,970个实例,经过专家评估。

  • 研究揭示了现有多语言建模策略的局限性。

  • 强调了改进代码混合文本处理能力的必要性。

➡️

继续阅读