If Large Language Models Were Characters, Would They Know Their Own Stories? Evaluating the Lifelong Learning of Large Language Models

本研究解决了当前评估大型语言模型（LLMs）在多轮交互中表现出的角色行为的不足，通过引入LIFESTATE-BENCH基准来评估LLMs的终身学习能力。研究发现非参数方法在状态学习上显著优于参数方法，但所有模型在交互中面临灾难性遗忘的挑战，强调了终身学习发展的必要性。

本研究提出LIFESTATE-BENCH基准，以评估大型语言模型在多轮交互中的角色行为和终身学习能力。结果表明，非参数方法优于参数方法，但模型仍面临灾难性遗忘问题，强调了终身学习的重要性。

LIFESTATE-BENCH models 多轮交互大型语言模型灾难性遗忘终身学习