本研究提出了COMI-LINGUA,一个大型手动标注的数据集,旨在捕捉印地语与英语代码混合的语言细微差别。通过对100,970个实例的专家评估,揭示了现有多语言建模策略的局限性,并强调了改进代码混合文本处理能力的必要性。
研究表明,现有语言模型数据集中存在大量重复示例,导致模型输出中超过1%的内容直接复制。为此,开发了去重工具以提升模型准确性。此外,研究探讨了子词切分在多语言建模中的作用,发现其对模型性能有显著影响,并提出了优化分词的最佳方案。
完成下面两步后,将自动完成登录并继续当前操作。