PairEval:使用配对比较进行开放域对话评价

💡 原文中文,约200字,阅读约需1分钟。
📝

内容提要

本文比较了三种自动评估方法,发现基于学习的指标是评估开放领域生成对话系统最有效的方法。作者提出了一种新的基于学习的评估指标 PONE,实验证明使用增强的正样本和有价值的负样本后,可以显著提高与人类判断的相关性,平均相关性提高达 13.18%。

🎯

关键要点

  • 本文比较了三种自动评估方法。
  • 基于学习的指标被认为是评估开放领域生成对话系统最有效的方法。
  • 提出了一种新的基于学习的评估指标 PONE。
  • PONE 解决了负采样机制导致的数据集不平衡和低质问题。
  • 使用增强的正样本和有价值的负样本后,PONE 显著提高了与人类判断的相关性。
  • 平均相关性提高达 13.18%。
➡️

继续阅读