小红花·文摘

通过研究大型语言模型的预训练过程，发现增加预训练数据量并不显著提高模型的事实知识能力。训练步骤与记忆遗忘和事实知识的泛化之间存在幂律关系，重复训练数据会导致遗忘加速，而使用更大的批量大小有助于提高模型的遗忘鲁棒性。事实知识在预训练过程中的获取是通过逐步增加每一步预训练数据中出现的事实知识的概率，但此提升会受到后续遗忘的影响。这一解释合理地解释了大型语言模型的表现，如尾部知识的糟糕表现以及去重预训练语料库的好处。