小红花·文摘

本研究提出了一种使用双向双编码器和加性边际 softmax 学习多语言句子嵌入的方法，能够在联合国平行语料库检索任务上取得最先进的结果，并使用检索到的语言对训练 NMT 模型。通过对句子嵌入平均构建的简单文档级别嵌入进行实验，能在 UN 文档级别检索任务中取得 97% 以上的 P@1。在 BUCC 挖掘任务上评估所提出的模型，与当前最先进的模型相比取得有竞争力的结果，并利用第二阶段的评分器在此任务上实现了新的最先进水平。