小红花·文摘

本研究提出了PersonaConvBench基准，旨在评估个性化推理与生成，解决个性化与对话结构的孤立问题。引入个性化历史显著提升了大型语言模型的性能，情感分类提升了198%。