本文提出了一种新颖的基于特征的框架,结合特征方法和神经网络的优势,以评估对话的建设性。该框架定义了一组可解释的语言特征,训练出比传统模型更强的预测规则,并揭示用户行为与主观评估之间的关系。同时,研究了共情评估框架及其与对话满意度的相关性,提出了自动对话共情评估的分类器,并探讨了开放领域对话系统的交互式评估方法。
该研究使用预训练语言模型和高质量标注的对话数据,建立了一个基于英文对话评估数据集的多语言对话评估基准测试。最好的基线模型在所有数据集和语言上的平均 Pearson 相关系数分别提升了6.5%和4.6%。该研究旨在解决开放域对话评估指标在其他语言上的泛化性问题。
xDial-Eval是一种基于英文对话评估数据集的多语言对话评估基准测试,建立了自监督和多语言基线模型。最好的基线模型在所有数据集和语言上的平均Pearson相关系数分别提升了6.5%和4.6%。
完成下面两步后,将自动完成登录并继续当前操作。