本文介绍了首个多语言可接受性基准MELA,涵盖10种语言的48K样本。分析表明,ChatGPT在上下文实例中的表现优于XLM-R,但仍不及其精调版本。GPT-4在零-shot设置下与XLM-R性能相当,强调了语言内训练数据的重要性,并引入冲突权重概念作为跨语言转移困难的指标。
该文章介绍了首个多语言语言可接受性基准MELA,并分析了经过精调的XLM-R的权重。结果显示ChatGPT在上下文实例方面表现良好,但仍落后于精调的XLM-R。GPT-4在零-shot设置中与精调的XLM-R性能相当。跨语言和多任务学习实验表明,语言内的训练数据对语言可接受度判断至关重要。文章还引入了冲突权重的概念,可能是跨语言转移困难的潜在指标。
完成下面两步后,将自动完成登录并继续当前操作。