JaColBERT 和 Hard Negatives:更好的检索性日语优先嵌入

💡 原文中文,约300字,阅读约需1分钟。
📝

内容提要

本研究提出了一种使用双向双编码器和加性边际 softmax 学习多语言句子嵌入的方法,能够在联合国平行语料库检索任务上取得最先进的结果,并使用检索到的语言对训练 NMT 模型。通过对句子嵌入平均构建的简单文档级别嵌入进行实验,能在 UN 文档级别检索任务中取得 97% 以上的 P@1。在 BUCC 挖掘任务上评估所提出的模型,与当前最先进的模型相比取得有竞争力的结果,并利用第二阶段的评分器在此任务上实现了新的最先进水平。

🎯

关键要点

  • 本研究提出了一种使用双向双编码器和加性边际 softmax 学习多语言句子嵌入的方法。
  • 该方法在联合国平行语料库检索任务上取得了最先进的结果。
  • 利用检索到的语言对训练 NMT 模型。
  • 通过简单文档级别嵌入实验,在 UN 文档级别检索任务中取得了97%以上的 P@1。
  • 在 BUCC 挖掘任务上评估所提出的模型,取得了有竞争力的结果。
  • 利用第二阶段的评分器在 BUCC 任务上实现了新的最先进水平。
➡️

继续阅读