本研究提出了一个新的基准,用于评估语言模型的角色扮演能力。通过模拟用户动态对话和评估对话质量,构建了包含玩家模型、询问者模型和评估模型的框架。实验结果显示,自动评估与人类标注之间存在强相关性,为语言模型在互动场景中的能力评估奠定了基础。
完成下面两步后,将自动完成登录并继续当前操作。