本文探讨了通过剪枝注意力头来减轻大型语言模型的偏差问题,提出了一种随机模拟退火的方法,有效识别需剪除的偏差贡献大的注意力头,实验表明可减少多达40%的性别偏差。
通过分析NLP模型中的观察段和语义相关的词群,提出了解释性摘要方法的灵活化,并引入了NLP模型的根本原因分析方法。实验证明,利用单词和信息中的组/集群结构可以帮助解释NLP模型的决策,并评估模型对性别、语法和单词含义的敏感性或偏差。
该研究使用因果中介分析理论,研究了预先训练的Transformer语言模型中性别偏差的机制。研究发现性别偏差效应分布稀疏,集中在网络的小部分,并且能被不同的中介子部件放大或抑制,同时也可以通过中介子的直接和间接影响进行分解。
完成下面两步后,将自动完成登录并继续当前操作。