角色互动评估:评估角色扮演代理人的社交互动
原文中文,约400字,阅读约需1分钟。发表于: 。介绍了 RoleInteract,这是第一个旨在系统评估角色扮演对话代理在个体和社交互动组别两个级别上社交性的基准。从各种来源中构建了这个基准,共涵盖了 500 个角色和超过 6,000 个问题提示以及 30,800 个多轮角色扮演话语。通过在主流开源和闭源 LLMs...
本文介绍了RoleInteract基准,用于评估角色扮演对话代理在个体和社交互动组别两个级别上的社交性。评估发现,个体水平上表现出色的代理在群体水平上可能会受到其他代理的影响而发生漂移。RoleInteract作为评估角色扮演对话代理社交互动的测试平台具有重要性。