小红花·文摘

研究者构建了Cline数据集，包含16,642个英语-印地语混合文本句子，用于混合文本生成的质量控制。实验证明，基于混合代码指标训练的多层感知机模型表现更佳。研究者还进行了零样本转移可接受性判断，超过了随机基线。研究者公开发布了相关数据集、训练检查点、混合文本语料库和数据生成以及模型训练的代码。