本研究提出了一种基于自我对话模型的评估方法,旨在提高不同注释人员之间的鲁棒性。实验表明,学习指标PONE显著提高了与人类判断的相关性。此外,研究评估了多种自动评估度量,提出了无参考评估器和BERT微调方法,以改进对话响应生成系统的评估性能,结果显示与人类判断的相关性较强。
本文介绍了RoMe,一种自动评估度量,通过语言特征和树编辑距离等评估生成句子质量,优于其他方法。
完成下面两步后,将自动完成登录并继续当前操作。