利用代码交替改进语义检索的跨语言表示
原文中文,约200字,阅读约需1分钟。发表于: 。本研究提出了一种基于代码切换的备选跨语言 PTM 方法用于语义检索,通过引入代码切换的持续预训练,相对于直接使用 PTM 在语义检索任务上的方法,我们的方法在二十多种语言的三个商业语料库和四个开放数据集上连续超过了之前的 SOTA 方法。
该文章介绍了一种新的预训练方法Code-Switching Pre-training(CSP),通过跨语言对齐信息预先训练神经机器翻译模型。该方法通过词嵌入映射词典识别源语言和目标语言之间的单词替换,克服了传统模型的缺点。实验证明该方法在无监督和有监督的机器翻译任务上都有显著提高。