PairEval:使用配对比较进行开放域对话评价
💡
原文中文,约200字,阅读约需1分钟。
📝
内容提要
本文比较了三种自动评估方法,发现基于学习的指标是评估开放领域生成对话系统最有效的方法。作者提出了一种新的基于学习的评估指标 PONE,实验证明使用增强的正样本和有价值的负样本后,可以显著提高与人类判断的相关性,平均相关性提高达 13.18%。
🎯
关键要点
- 本文比较了三种自动评估方法。
- 基于学习的指标被认为是评估开放领域生成对话系统最有效的方法。
- 提出了一种新的基于学习的评估指标 PONE。
- PONE 解决了负采样机制导致的数据集不平衡和低质问题。
- 使用增强的正样本和有价值的负样本后,PONE 显著提高了与人类判断的相关性。
- 平均相关性提高达 13.18%。
➡️