小红花·文摘

本文提出了一种新颖的基于特征的框架，结合特征方法和神经网络的优势，以评估对话的建设性。该框架定义了一组可解释的语言特征，训练出比传统模型更强的预测规则，并揭示用户行为与主观评估之间的关系。同时，研究了共情评估框架及其与对话满意度的相关性，提出了自动对话共情评估的分类器，并探讨了开放领域对话系统的交互式评估方法。

互动至关重要：评估英语二语对话中的交互对话评估框架

BriefGPT - AI 论文速递 ·

该研究使用预训练语言模型和高质量标注的对话数据，建立了一个基于英文对话评估数据集的多语言对话评估基准测试。最好的基线模型在所有数据集和语言上的平均 Pearson 相关系数分别提升了6.5%和4.6%。该研究旨在解决开放域对话评估指标在其他语言上的泛化性问题。

DiQAD: 一个用于端到端开放域对话评估的基准数据集

BriefGPT - AI 论文速递 ·

xDial-Eval是一种基于英文对话评估数据集的多语言对话评估基准测试，建立了自监督和多语言基线模型。最好的基线模型在所有数据集和语言上的平均Pearson相关系数分别提升了6.5%和4.6%。

NormDial: 用于建模社会规范遵守与违规的可比较双语合成对话数据集

BriefGPT - AI 论文速递 ·