识别并调整英语语言模型中负责性别偏见的 Transformer 组件
原文中文,约200字,阅读约需1分钟。发表于: 。研究探讨了三种方法来识别语言模型组件与特定输出之间的因果关系,通过对 GPT-2 进行参数有效的微调,成功减轻性别偏见,同时对整体语言建模造成的损害较小。
该研究使用因果中介分析理论,研究了预先训练的Transformer语言模型中性别偏差的机制。研究发现性别偏差效应分布稀疏,集中在网络的小部分,并且能被不同的中介子部件放大或抑制,同时也可以通过中介子的直接和间接影响进行分解。