小红花·文摘

本研究评估了参考无关度量与参考度量在自然语言生成任务中的性能，并发现参考无关度量与人类判断相关性高，对语言质量的不足更敏感。然而，其有效性因任务和候选文本质量而异。在应用参考无关度量到新任务时，特别是在输入形式不常见或答案空间变化大时，需要评估其性能。