小红花·文摘

本研究使用不同的持续学习算法对语言模型进行增量预训练，保留早期知识并提高下游任务性能。采用基于蒸馏的方法最有效，同时提高知识转移和时态泛化能力。

BriefGPT - AI 论文速递 ·

本研究使用不同的持续学习算法对语言模型进行增量预训练，评估模型对新数据的适应能力和早期数据知识的保留能力。结果显示基于蒸馏的方法最有效地保留早期任务性能，并提高知识转移和时态泛化能力。

BriefGPT - AI 论文速递 ·