CharacterEval: 一个用于角色扮演式对话代理评估的中文基准
💡
原文中文,约500字,阅读约需2分钟。
📝
内容提要
研究人员引入了中文基准CharacterEval,用于评估角色扮演对话智能体。该基准包含1,785个多轮对话,涵盖23,020个示例和77个角色。CharacterEval采用多方面的评估方法,显示中文语言模型在中文角色扮演对话中具有比GPT-4更有前景的能力。
🎯
关键要点
- 研究人员引入了中文基准CharacterEval,用于评估角色扮演对话智能体。
- CharacterEval包含1,785个多轮对话,涵盖23,020个示例和77个角色。
- 数据集通过GPT-4进行初始对话提取,并经过人为质量控制的严格筛选。
- CharacterEval采用多方面的评估方法,包括四个维度的十三个有针对性的指标。
- 实验表明中文语言模型在中文角色扮演对话中具有比GPT-4更有前景的能力。
- 源代码、数据源和奖励模型将在指定URL上公开提供。
🏷️
标签
➡️