小红花·文摘

本研究提出了COMI-LINGUA，一个大型手动标注的数据集，旨在捕捉印地语与英语代码混合的语言细微差别。通过对100,970个实例的专家评估，揭示了现有多语言建模策略的局限性，并强调了改进代码混合文本处理能力的必要性。

BriefGPT - AI 论文速递 ·

研究表明，现有语言模型数据集中存在大量重复示例，导致模型输出中超过1%的内容直接复制。为此，开发了去重工具以提升模型准确性。此外，研究探讨了子词切分在多语言建模中的作用，发现其对模型性能有显著影响，并提出了优化分词的最佳方案。

BriefGPT - AI 论文速递 ·