预训练遮蔽语言模型中社会偏见和任务表现的预测因素分析
原文中文,约400字,阅读约需1分钟。
📝
内容提要
本文研究了预训练语言模型如何通过无监督学习中的遮盖和预测标记产生语言结构和改进下游性能。通过构建类似填空的掩码,并用于三个不同的分类数据集,证明了预训练模型的绝大部分性能提升来自没有与词典关联的通用掩码。同时,本文提出了一种提取该模型中学习到的统计依赖的方法,这些依赖以句法结构的形式编码。在无监督解析方面,简单地形成最小生成树优于经典的无监督解析方法。
🎯
关键要点
-
研究预训练语言模型如何通过无监督学习中的遮盖和预测标记产生语言结构和改进下游性能。
-
预训练语言模型通过遮盖填空获得有用的归纳偏见。
-
构建了类似填空的掩码,并用于三个不同的分类数据集。
-
证明了预训练模型的性能提升主要来自没有与词典关联的通用掩码。
-
演示了掩码语言模型目标与学习图形模型中的统计依赖的对应关系。
-
提出了一种提取模型中学习到的统计依赖的方法,这些依赖以句法结构的形式编码。
-
在无监督解析方面,简单形成最小生成树优于经典的无监督解析方法。
🏷️