基于原型的数据集比较
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文介绍了一种为语言贫乏地区提供高质量可比较培训数据的方法,通过挑选关键图像并获取源语言和目标语言的标题,从单语注释人员中收集数据。通过人工评估,发现81.1%的配对具有可接受的翻译效果,仅有2.47%的配对无法翻译。通过机器翻译和词典提取实验,证明了该方法所收集数据集的潜力。
🎯
关键要点
- 提出了一种为语言贫乏地区提供高质量可比较培训数据的方法。
- 通过挑选关键图像并获取源语言和目标语言的标题,从单语注释人员中收集数据。
- 人工评估显示81.1%的配对具有可接受的翻译效果,仅有2.47%的配对无法翻译。
- 通过机器翻译和词典提取实验证明了所收集数据集的潜力。
➡️