跨语言迁移是一种提升低资源环境下NLP任务训练数据的方法。本文分析了263种语言在词性标注、依存解析和主题分类等任务中的迁移情况,发现语言相似性对迁移性能的影响受任务、输入表示和相似性定义等因素的制约。
本文首次全面研究了多语言大语言模型中的记忆化现象,分析了95种语言,提出了基于图的相关性指标,强调语言相似性对记忆化的影响,尤其在样本较少的语言中更为显著。
本文研究大型语言模型在文本生成中的语言混淆现象,提出“语言混淆熵”作为量化指标,探讨其与模型安全性的关系,并提供基于语言相似性的解决方案。
该论文研究了自动选择最佳转移语言解决排名问题的方法,通过考虑语言相似性、类型学特性、词汇重叠和可用数据大小等因素建立了预测模型。实验结果显示该模型在NLP任务中优于基准线,能够确定每种任务最有信息量的特征,对未来的专家选择有帮助。
本研究通过比较英语作为第二语言文本的结构特征和母语语言的类型学特征,证明了语言相似性可以跨语言转移。研究发现,可以直接从ESL文本中恢复母语类型学相似性结构,并预测目标语言的类型学特征。该方法在类型学预测任务上取得了72.2%的准确度,与依赖类型学资源的方法相当。
完成下面两步后,将自动完成登录并继续当前操作。