利用跨语言句子表示增强低资源机器翻译的数据选择方法
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
本文介绍了一种新的框架,用于改进低资源语言的跨语言词表示。该框架通过词对齐模型显式地对齐英语和八种低资源语言之间的单词。实验证明该方法在低资源语言的句子嵌入上取得了显著的改进,并在高资源语言上表现出竞争性。
🎯
关键要点
- 跨语言句子嵌入领域取得了很大进展,但低资源语言研究滞后。
- 当前模型中低资源语言的跨语言词表示与高资源语言对齐程度不足。
- 引入了一种新的框架,通过词对齐模型显式对齐英语和八种低资源语言的单词。
- 框架包含三个主要训练目标:对齐的单词预测、单词翻译排序和翻译排序。
- 在双语检索任务中,方法在低资源语言的句子嵌入上取得显著改进。
- 所提出模型在高资源语言上表现出竞争性,凸显其实用性。
➡️