本研究使用不同的持续学习算法对语言模型进行增量预训练,保留早期知识并提高下游任务性能。采用基于蒸馏的方法最有效,同时提高知识转移和时态泛化能力。
本研究使用不同的持续学习算法对语言模型进行增量预训练,评估模型对新数据的适应能力和早期数据知识的保留能力。结果显示基于蒸馏的方法最有效地保留早期任务性能,并提高知识转移和时态泛化能力。
完成下面两步后,将自动完成登录并继续当前操作。