跨语言迁移是一种提升低资源环境下NLP任务训练数据的方法。本文分析了263种语言在词性标注、依存解析和主题分类等任务中的迁移情况,发现语言相似性对迁移性能的影响受任务、输入表示和相似性定义等因素的制约。
本文首次全面研究了多语言大语言模型中的记忆化现象,分析了95种语言,提出了基于图的相关性指标,强调语言相似性对记忆化的影响,尤其在样本较少的语言中更为显著。
本研究通过比较英语作为第二语言文本的结构特征和母语语言的类型学特征,证明了语言相似性可以跨语言转移。研究发现,可以直接从ESL文本中恢复母语类型学相似性结构,并预测目标语言的类型学特征。该方法在类型学预测任务上取得了72.2%的准确度,与依赖类型学资源的方法相当。
完成下面两步后,将自动完成登录并继续当前操作。