CharacterEval: 一个用于角色扮演式对话代理评估的中文基准
原文中文,约500字,阅读约需2分钟。发表于: 。最近,大型语言模型的出现彻底改变了生成型智能体。其中,角色扮演对话智能体引起了广泛关注,因其有能力在情感上吸引用户。然而,缺乏一套全面的基准测试阻碍了该领域的进展。为了弥补这一差距,我们引入了 CharacterEval,这是一个用于全面评估角色扮演对话智能体的中文基准。该基准配备了一个特制高质量的数据集,包含 1,785 个多轮角色扮演对话,涵盖 23,020 个示例,并包含 77...
研究人员引入了中文基准CharacterEval,用于评估角色扮演对话智能体。该基准包含1,785个多轮对话,涵盖23,020个示例和77个角色。CharacterEval采用多方面的评估方法,显示中文语言模型在中文角色扮演对话中具有比GPT-4更有前景的能力。