BriefGPT - AI 论文速递 ·

Expanding the FLORES+ Benchmark to Accommodate More Low-Resource Environments: Evaluation of Portuguese-Emakua Machine Translation

💡 原文英文，约100词，阅读约需1分钟。

📝

内容提要

本文探讨了利用资源丰富语言的相似性来改善低资源语言的机器翻译，评估了印尼语和西班牙语的翻译质量。研究介绍了FLoRes和FLORES-101评估数据集，分析了多语言模型在低资源语言翻译中的效果，并提出了数据增强策略以提高翻译质量。

🎯

❓

通过利用资源丰富语言与资源贫乏语言的相似性，可以减少训练数据并改善低资源语言的机器翻译质量。

FLORES-101评估数据集包含3001句由专业翻译人员翻译的句子，适用于评估低资源语言和多对多多语言翻译系统的模型质量。

研究评估了印尼语到英语和西班牙语到英语的翻译质量，结果显示在少量并行语料库的情况下有所改善。

研究提出了数据增强策略，以提高低资源语言的翻译质量，并展示了在11种语言预训练情况下的效果。

对印尼四种资源匮乏的本土语言的分析揭示了实用策略和实现竞争性翻译品质的方法，为类似研究提供了指导。

多语言模型在某些翻译方向上显示出显著的提升，尤其是在资源匮乏的语言对之间。

🏷️