An Analysis of Automated Metrics for Evaluating Japanese-English Chat Translation

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本文分析了传统指标(如BLEU、TER)与神经方法(如BERTScore、COMET)在日英聊天翻译中的表现。研究表明,所有指标在模型排名上表现一致,但神经指标与人类评分的相关性更高,尤其是COMET。然而,在评估含有零代词的日语句子翻译时,最佳指标仍存在困难。

🎯

关键要点

  • 本文分析了传统指标(如BLEU、TER)与神经方法(如BERTScore、COMET)在日英聊天翻译中的表现。
  • 所有指标在模型排名上表现一致,但神经指标与人类评分的相关性更高。
  • COMET在聊天翻译中与人类标注分数的相关性最高。
  • 在评估含有零代词的日语句子翻译时,最佳指标仍存在困难。
➡️

继续阅读