CHARP: 基于知识驱动的对话系统的会话历史意识探测
发表于: 。在此研究中,我们深入研究了一个受关注的知识驱动对话基准基础上诚实性,FaithDial,我们发现 FaithDial 数据包含相当多的注释错误,可能导致模型完全忽略对话历史。因此,我们引入了 CHARP,一个用于改进对话模型中幻觉评估的诊断测试集。CHARP 不仅测量幻觉,还测量模型在对话任务上的遵守程度。我们的广泛分析显示,模型主要在 CHARP...
在此研究中,我们深入研究了一个受关注的知识驱动对话基准基础上诚实性,FaithDial,我们发现 FaithDial 数据包含相当多的注释错误,可能导致模型完全忽略对话历史。因此,我们引入了 CHARP,一个用于改进对话模型中幻觉评估的诊断测试集。CHARP 不仅测量幻觉,还测量模型在对话任务上的遵守程度。我们的广泛分析显示,模型主要在 CHARP...