ComperDial: 基于常识和角色的对话数据集与基准
💡
原文中文,约1500字,阅读约需4分钟。
📝
内容提要
本文讨论了多语言对话评估的进展,重点介绍了基于英文数据集的 xDial-Eval。研究引入了 SocialDial 和 CGoDial 数据集,提出了新的评估方法 PairEval,并评估了对话系统的个性化和质量。通过对不同模型的比较,提供了对对话评估指标的深入见解,为未来研究提供指导。
🎯
关键要点
- 最近关于开放域对话评估的无参考学习测量的进展主要集中在英文对话上,其他语言的泛化性研究不足。
- 引入了基于英文对话评估数据集的 xDial-Eval 进行多语言对话评估基准测试。
- 提出了第一个基于中国社会文化的社交感知对话语料库 - SocialDial,生成了 4,870 段数据。
- CGoDial 是一个多领域目标导向对话评估的新基准,包含三个使用不同知识来源的数据集。
- 提出了一种基于对话响应之间比较的评估方法 PairEval,具有更高的鲁棒性和与人类判断的相关性。
- 介绍了一种数据中心方法,用于改善个性化对话代理,显著提高了模型的准确性。
- 对 23 种不同的自动评估度量进行了综合评估,提供了对对话评估指标的深入见解。
❓
延伸问答
xDial-Eval是什么?
xDial-Eval是一个基于英文对话评估数据集的多语言对话评估基准测试。
SocialDial数据集的特点是什么?
SocialDial是第一个基于中国社会文化的社交感知对话语料库,生成了4,870段数据。
CGoDial数据集包含哪些类型的对话?
CGoDial包含基于插槽的对话、基于流的对话和基于检索的对话。
PairEval评估方法的优势是什么?
PairEval比基准度量方法更具鲁棒性,并且与人类判断的相关性更高。
如何改善个性化对话代理的准确性?
通过一种数据中心方法,利用对话响应和个人资料之间的联系来增强相关人物角色。
文章中提到的对话评估指标有哪些?
文章评估了23种不同的自动评估度量,提供了对对话评估指标的深入见解。
➡️