本文介绍了CausalScore,一种用于评估开放领域对话系统回应质量的新度量标准。通过测量对话历史和回应之间的因果关系强度来评估回应的相关性。实验结果显示CausalScore在与人类判断的一致性方面优于现有指标。作者还提供了一个带有人工注释的因果关系对话数据集CGDIALOG+,以促进未来自动度量标准的发展。
完成下面两步后,将自动完成登录并继续当前操作。