小红花·文摘

本文研究了以持续预训练的方式构建新语言的大型语言模型，并通过40个模型规模的并行实验表明CPT能够快速收敛并节省计算资源。研究还发现CPT的计算最优数据-参数分配存在差异，通过数据重播可以减轻灾难性遗忘。希望这些发现能为规模化LLMs的可迁移性提供见解。