在段落级别上训练和元评估机器翻译评估指标
原文约300字/词,阅读约需1分钟。发表于: 。机器翻译中,自动评估指标在评分更长的翻译文本方面的有效性仍不清楚。本文提出了一种通过现有句子级数据创建段落级数据用于训练和元评估指标的方法,并利用这些新数据集对现有句子级指标进行基准测试,以及在段落级训练学习指标。有趣的是,我们的实验结果表明,使用句子级指标评分整个段落与使用专为段落级工作的指标同样有效。我们推测这一结果可能归因于基于参考的评估任务的特性以及数据集在捕捉段落级翻译中发生的各种...
本文研究了自动机器翻译度量在句子级别中区分好坏翻译的可靠性,并研究了在大平台中放置机器翻译组件的成功率检测中MT度量的有用性。通过评估最广泛使用的MT度量在三个跨语言任务上的性能,发现度量标准与下游结果的相关性微不足道。神经度量提供的分数大多数不可解释。分析表明,将来的MT指标应设计成产生错误标签而不是得分,以便于外在评估。