小红花·文摘

研究人员引入了中文基准CharacterEval，用于评估角色扮演对话智能体。该基准包含1,785个多轮对话，涵盖23,020个示例和77个角色。CharacterEval采用多方面的评估方法，显示中文语言模型在中文角色扮演对话中具有比GPT-4更有前景的能力。