小红花·文摘

本文探讨了通过剪枝注意力头来减轻大型语言模型的偏差问题，提出了一种随机模拟退火的方法，有效识别需剪除的偏差贡献大的注意力头，实验表明可减少多达40%的性别偏差。