研究者构建了Cline数据集,包含16,642个英语-印地语混合文本句子,用于混合文本生成的质量控制。实验证明,基于混合代码指标训练的多层感知机模型表现更佳。研究者还进行了零样本转移可接受性判断,超过了随机基线。研究者公开发布了相关数据集、训练检查点、混合文本语料库和数据生成以及模型训练的代码。
完成下面两步后,将自动完成登录并继续当前操作。