从人类评判到预测模型:解析混合代码句子的可接受性

💡 原文中文,约800字,阅读约需2分钟。
📝

内容提要

研究者构建了Cline数据集,包含16,642个英语-印地语混合文本句子,用于混合文本生成的质量控制。实验证明,基于混合代码指标训练的多层感知机模型表现更佳。研究者还进行了零样本转移可接受性判断,超过了随机基线。研究者公开发布了相关数据集、训练检查点、混合文本语料库和数据生成以及模型训练的代码。

🎯

关键要点

  • 研究者构建了Cline数据集,包含16,642个英语-印地语混合文本句子。

  • Cline数据集用于混合文本生成的质量控制,包含合成混合文本和社交媒体收集的样本。

  • 流行的混合代码指标与人工可接受性判断之间的相关性较低,凸显了Cline数据集的必要性。

  • 基于混合代码指标训练的多层感知机模型在挑战性数据设置中表现优于细调的预训练多语言大型语言模型。

  • XLM-Roberta和Bernice在不同配置中优于IndicBERT。

  • 与ChatGPT的比较显示,基于更大数据集细调的多语言模型在混合代码任务中表现更好。

  • 使用模型检查点进行的零样本转移可接受性判断超过了随机基线,适用于其他混合语言对。

  • 研究者公开发布了相关数据集、训练检查点、混合文本语料库和模型训练的代码。

➡️

继续阅读