分布假设并不能完全解释掩蔽语言模型预训练的好处

我们从分布假设的角度分析了遮蔽语言建模预训练目标函数。我们研究了是否可以将预训练的模型的更好样本利用效率和更好的泛化能力归因于预训练数据的语义相似性编码的分布特性。通过一个合成数据集，我们的分析表明，分布特性确实导致了预训练遮蔽语言模型的更好样本利用效率，但不能完全解释其泛化能力。我们还对两个真实数据集进行了分析，并证明了分布特性也无法解释预训练自然语言模型的泛化能力。我们的结果表明我们对模...

该研究从分布假设的角度分析了遮蔽语言建模预训练目标函数，研究了预训练模型的更好样本利用效率和泛化能力是否归因于预训练数据的语义相似性编码的分布特性。通过合成数据集的分析，发现分布特性确实导致了预训练遮蔽语言模型的更好样本利用效率，但不能完全解释其泛化能力。对两个真实数据集的分析也证明了分布特性无法解释预训练自然语言模型的泛化能力，该研究提供了未来的研究方向。