本研究提出了CharacterBench基准测试,旨在全面评估大型语言模型的角色定制能力。该基准涵盖25个角色类别和22,859个样本,通过定义11个评估维度和开发CharacterJudge模型,提高了评估的效率和稳定性,实验结果显示其在角色定制能力上具有显著优势。
完成下面两步后,将自动完成登录并继续当前操作。