本文研究了以持续预训练的方式构建新语言的大型语言模型,并通过40个模型规模的并行实验表明CPT能够快速收敛并节省计算资源。研究还发现CPT的计算最优数据-参数分配存在差异,通过数据重播可以减轻灾难性遗忘。希望这些发现能为规模化LLMs的可迁移性提供见解。
完成下面两步后,将自动完成登录并继续当前操作。