JaColBERT 和 Hard Negatives:更好的检索性日语优先嵌入
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本研究提出了一种使用双向双编码器和加性边际 softmax 学习多语言句子嵌入的方法,能够在联合国平行语料库检索任务上取得最先进的结果,并使用检索到的语言对训练 NMT 模型。通过对句子嵌入平均构建的简单文档级别嵌入进行实验,能在 UN 文档级别检索任务中取得 97% 以上的 P@1。在 BUCC 挖掘任务上评估所提出的模型,与当前最先进的模型相比取得有竞争力的结果,并利用第二阶段的评分器在此任务上实现了新的最先进水平。
🎯
关键要点
- 本研究提出了一种使用双向双编码器和加性边际 softmax 学习多语言句子嵌入的方法。
- 该方法在联合国平行语料库检索任务上取得了最先进的结果。
- 利用检索到的语言对训练 NMT 模型。
- 通过简单文档级别嵌入实验,在 UN 文档级别检索任务中取得了97%以上的 P@1。
- 在 BUCC 挖掘任务上评估所提出的模型,取得了有竞争力的结果。
- 利用第二阶段的评分器在 BUCC 任务上实现了新的最先进水平。
🏷️
标签
➡️