DiQAD: 一个用于端到端开放域对话评估的基准数据集
💡
原文中文,约300字,阅读约需1分钟。
📝
内容提要
该研究使用预训练语言模型和高质量标注的对话数据,建立了一个基于英文对话评估数据集的多语言对话评估基准测试。最好的基线模型在所有数据集和语言上的平均 Pearson 相关系数分别提升了6.5%和4.6%。该研究旨在解决开放域对话评估指标在其他语言上的泛化性问题。
🎯
关键要点
-
该研究使用预训练语言模型和高质量标注的对话数据。
-
研究集中在开放域对话评估的无参考学习测量,主要针对英文对话。
-
对这些测量指标在其他语言上的泛化性尚未充分研究。
-
引入基于英文对话评估数据集的 xDial-Eval 进行多语言对话评估基准测试。
-
建立了自监督和多语言基线模型。
-
最好的基线模型在所有数据集和语言上的平均 Pearson 相关系数分别提升了 6.5% 和 4.6%。
-
该模型参数更少,相比于 OpenAI 的 ChatGPT 具有优势。
➡️