小红花·文摘

本文研究了预训练语言模型如何通过无监督学习中的遮盖和预测标记产生语言结构和改进下游性能。通过构建类似填空的掩码，并用于三个不同的分类数据集，证明了预训练模型的绝大部分性能提升来自没有与词典关联的通用掩码。同时，本文提出了一种提取该模型中学习到的统计依赖的方法，这些依赖以句法结构的形式编码。在无监督解析方面，简单地形成最小生成树优于经典的无监督解析方法。