在自然语言生成系统评估中,引用是否有必要?何时何地?
原文中文,约300字,阅读约需1分钟。发表于: 。基于广泛的实验,本研究全面评估了参考无关度量与参考度量在各种自然语言生成任务中的性能,并表明参考无关度量与人类判断有较高相关性,并对语言质量的不足更敏感,然而其有效性因任务而异,受候选文本质量影响。因此,在应用参考无关度量到新任务时,特别是在输入形式不常见或答案空间高度变化时,有必要评估其性能。本研究为自动度量的适当应用以及度量选择对评估性能的影响提供了洞察。
本研究评估了参考无关度量与参考度量在自然语言生成任务中的性能,并发现参考无关度量与人类判断相关性高,对语言质量的不足更敏感。然而,其有效性因任务和候选文本质量而异。在应用参考无关度量到新任务时,特别是在输入形式不常见或答案空间变化大时,需要评估其性能。