小红花·文摘

本研究提出了一个新的基准，用于评估语言模型的角色扮演能力。通过模拟用户动态对话和评估对话质量，构建了包含玩家模型、询问者模型和评估模型的框架。实验结果显示，自动评估与人类标注之间存在强相关性，为语言模型在互动场景中的能力评估奠定了基础。