An Analysis of Automated Metrics for Evaluating Japanese-English Chat Translation
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本文分析了传统指标(如BLEU、TER)与神经方法(如BERTScore、COMET)在日英聊天翻译中的表现。研究表明,所有指标在模型排名上表现一致,但神经指标与人类评分的相关性更高,尤其是COMET。然而,在评估含有零代词的日语句子翻译时,最佳指标仍存在困难。
🎯
关键要点
- 本文分析了传统指标(如BLEU、TER)与神经方法(如BERTScore、COMET)在日英聊天翻译中的表现。
- 所有指标在模型排名上表现一致,但神经指标与人类评分的相关性更高。
- COMET在聊天翻译中与人类标注分数的相关性最高。
- 在评估含有零代词的日语句子翻译时,最佳指标仍存在困难。
➡️