小红花·文摘

该研究从分布假设的角度分析了遮蔽语言建模预训练目标函数，研究了预训练模型的更好样本利用效率和泛化能力是否归因于预训练数据的语义相似性编码的分布特性。通过合成数据集的分析，发现分布特性确实导致了预训练遮蔽语言模型的更好样本利用效率，但不能完全解释其泛化能力。对两个真实数据集的分析也证明了分布特性无法解释预训练自然语言模型的泛化能力，该研究提供了未来的研究方向。