本文提出了一种简单的 PCFG 形式,通过低秩参数化规则概率张量,将稠密 PCFG 扩展到数千个非终结符,有助于无监督解析。同时,提出了一种硬件 IO 感知的内部算法实现,用于高效扩展简单的 PCFG。
本文研究了预训练语言模型如何通过无监督学习中的遮盖和预测标记产生语言结构和改进下游性能。通过构建类似填空的掩码,并用于三个不同的分类数据集,证明了预训练模型的绝大部分性能提升来自没有与词典关联的通用掩码。同时,本文提出了一种提取该模型中学习到的统计依赖的方法,这些依赖以句法结构的形式编码。在无监督解析方面,简单地形成最小生成树优于经典的无监督解析方法。
完成下面两步后,将自动完成登录并继续当前操作。