小红花·文摘 - 小红花技术领袖俱乐部

本文探讨了通过剪枝注意力头来减轻大型语言模型的偏差问题，提出了一种随机模拟退火的方法，有效识别需剪除的偏差贡献大的注意力头，实验表明可减少多达40%的性别偏差。

Attention Pruning: Automatically Mitigating Fairness in Language Models through Proxy Simulated Annealing

BriefGPT - AI 论文速递 ·

该研究使用因果中介分析理论，研究了预先训练的Transformer语言模型中性别偏差的机制。研究发现性别偏差效应分布稀疏，集中在网络的小部分，并且能被不同的中介子部件放大或抑制，同时也可以通过中介子的直接和间接影响进行分解。

识别并调整英语语言模型中负责性别偏见的 Transformer 组件

BriefGPT - AI 论文速递 ·