小红花·文摘

本研究提出了CharacterBench基准测试，旨在全面评估大型语言模型的角色定制能力。该基准涵盖25个角色类别和22,859个样本，通过定义11个评估维度和开发CharacterJudge模型，提高了评估的效率和稳定性，实验结果显示其在角色定制能力上具有显著优势。