该文章介绍了一种新的预训练方法Code-Switching Pre-training(CSP),通过跨语言对齐信息预先训练神经机器翻译模型。该方法通过词嵌入映射词典识别源语言和目标语言之间的单词替换,克服了传统模型的缺点。实验证明该方法在无监督和有监督的机器翻译任务上都有显著提高。
本文分析了两种低资源语言的网络挖掘语料库质量,并评估了排名语料库的不同部分。研究发现,不同部分的语料库质量存在差异,且在不同语言和数据集间有变化。此外,研究还发现,使用最高排名部分训练的神经机器翻译模型在某些网络挖掘数据集上与人工策划的数据集媲美。
本文提出了解决神经机器翻译模型中大词汇表问题的方法,通过选择小目标词汇表并基于翻译模型或短语库实现。实验证明,该方法在英法翻译任务中的BLEU分数比使用大词汇表的系统高1个点。
通过研究不同方法改进低资源和古老语言机器翻译,开发了一种基于语言相关性的多语言神经机器翻译模型,平均性能提高了约4个BLEU。尝试使用NLLB-200和GPT-3.5模型进行微调和少量样本翻译,但性能较差。研究为低资源和古老语言机器翻译的方法提供了一些见解。
本文研究了上下文对神经机器翻译模型在英日商务对话翻译中的影响。通过使用mBART模型在多句对话数据上进行微调,发现模型利用前几个句子和额外片段的上下文以及对敬语翻译进行了更专注的分析。实验结果表明,增加源语言上下文信息和场景、发言人信息有助于提高模型性能。
完成下面两步后,将自动完成登录并继续当前操作。