ComperDial: 基于常识和角色的对话数据集与基准
原文中文,约400字,阅读约需1分钟。发表于: 。我们提出了一个新的基准系统 ComperDial,用于为开放领域对话系统的训练和评估提供测评度量标准。ComperDial 包括来自 99 个对话代理的 1,485 个对话中的 10,395 个对话转折的人工评分响应,除了单个对话转折的评分外,也包含对整个对话进行人工注释的评分,我们利用 ComperDial 开发了一种新的自动评估度量标准 CPDScore,实验证明 CPDScore...
研究人员提出了基准系统ComperDial,用于开放领域对话系统的训练和评估。系统包括1,485个对话中的10,395个对话转折的人工评分响应。研究人员还开发了自动评估度量标准CPDScore,与人类判断相关。ComperDial和CPDScore已发布给社区,加速开放领域对话系统自动评估度量标准的开发。