CharacterEval: 一个用于角色扮演式对话代理评估的中文基准

💡 原文中文,约500字,阅读约需2分钟。
📝

内容提要

研究人员引入了中文基准CharacterEval,用于评估角色扮演对话智能体。该基准包含1,785个多轮对话,涵盖23,020个示例和77个角色。CharacterEval采用多方面的评估方法,显示中文语言模型在中文角色扮演对话中具有比GPT-4更有前景的能力。

🎯

关键要点

  • 研究人员引入了中文基准CharacterEval,用于评估角色扮演对话智能体。
  • CharacterEval包含1,785个多轮对话,涵盖23,020个示例和77个角色。
  • 数据集通过GPT-4进行初始对话提取,并经过人为质量控制的严格筛选。
  • CharacterEval采用多方面的评估方法,包括四个维度的十三个有针对性的指标。
  • 实验表明中文语言模型在中文角色扮演对话中具有比GPT-4更有前景的能力。
  • 源代码、数据源和奖励模型将在指定URL上公开提供。
➡️

继续阅读