研究人员引入了中文基准CharacterEval,用于评估角色扮演对话智能体。该基准包含1,785个多轮对话,涵盖23,020个示例和77个角色。CharacterEval采用多方面的评估方法,显示中文语言模型在中文角色扮演对话中具有比GPT-4更有前景的能力。
完成下面两步后,将自动完成登录并继续当前操作。