小红花·文摘

本研究提出了一种基于自我对话模型的评估方法，旨在提高不同注释人员之间的鲁棒性。实验表明，学习指标PONE显著提高了与人类判断的相关性。此外，研究评估了多种自动评估度量，提出了无参考评估器和BERT微调方法，以改进对话响应生成系统的评估性能，结果显示与人类判断的相关性较强。

BriefGPT - AI 论文速递 ·

本文介绍了RoMe，一种自动评估度量，通过语言特征和树编辑距离等评估生成句子质量，优于其他方法。

BriefGPT - AI 论文速递 ·