本研究提出了CharacterBench基准,涵盖25个角色类别和22,859个样本,旨在全面评估大型语言模型的角色定制能力。通过定义11个评估维度并开发CharacterJudge模型,提升了评估效率,实验结果表明模型的角色定制能力显著增强。
完成下面两步后,将自动完成登录并继续当前操作。