大型语言模型在预训练期间如何获取事实知识?
原文中文,约400字,阅读约需1分钟。发表于: 。通过研究大型语言模型在预训练过程中获得事实知识的机制,发现预训练数据量的增加并不显著提高模型获得和保持事实知识的能力,训练步骤与记忆遗忘和事实知识的泛化之间存在幂律关系,重复训练数据会导致遗忘加速,而使用更大的批量大小有助于提高模型的遗忘鲁棒性。事实知识在预训练过程中的获取是通过逐步增加每一步预训练数据中出现的事实知识的概率,但此提升会受到后续遗忘的影响。根据这一解释,我们对大型语言模型的表...
通过研究大型语言模型的预训练过程,发现增加预训练数据量并不显著提高模型的事实知识能力。训练步骤与记忆遗忘和事实知识的泛化之间存在幂律关系,重复训练数据会导致遗忘加速,而使用更大的批量大小有助于提高模型的遗忘鲁棒性。事实知识在预训练过程中的获取是通过逐步增加每一步预训练数据中出现的事实知识的概率,但此提升会受到后续遗忘的影响。这一解释合理地解释了大型语言模型的表现,如尾部知识的糟糕表现以及去重预训练语料库的好处。