低资源自动标注的嵌入式翻译

💡 原文中文,约500字,阅读约需1分钟。
📝

内容提要

我们研究了在资源稀缺环境中的自动插入式脚注,并通过提取嵌入式翻译信息来增强硬式注意神经模型。我们的模型在插入式脚注任务上超过了现有技术水平,尤其在极度资源稀缺环境中。通过仅使用100个句子进行训练,我们的系统平均改善了9.78个百分点,超过了普通硬式注意基线。这些结果表明翻译信息对提升系统性能至关重要。

🎯

关键要点

  • 研究自动插入式脚注在资源稀缺环境中的应用。
  • 通过提取嵌入式翻译信息增强硬式注意神经模型。
  • 使用大型语言模型(BERT和T5)对翻译进行编码。
  • 引入字符级解码器生成插入式脚注输出。
  • 在SIGMORPHON 2023共享任务数据集上,模型平均改善了3.97个百分点。
  • 在极度资源稀缺环境中,仅使用100个句子训练,模型平均改善了9.78个百分点。
  • 翻译信息对提升系统性能至关重要,尤其在有限数据源处理时。
  • 研究结果为语言的记载和保护提供了有希望的途径。
➡️

继续阅读