Transformer-Based 语言模型注意力头中的偏见分析
发表于: 。通过对注意力头的偏见分析框架,发现预训练语言模型中存在有偏头部,这有助于对模型公正性进行评估和指导有效减轻策略的开发。对 BERT 模型和 GPT 模型的性别和种族偏见进行了广泛的实验研究,进一步理解了预训练语言模型中的偏见行为。
通过对注意力头的偏见分析框架,发现预训练语言模型中存在有偏头部,这有助于对模型公正性进行评估和指导有效减轻策略的开发。对 BERT 模型和 GPT 模型的性别和种族偏见进行了广泛的实验研究,进一步理解了预训练语言模型中的偏见行为。