Locate First, Then Fine-Tune: Mitigating Gender Bias in Large Language Models

本研究针对大型语言模型(LLMs)在训练过程中不可避免地受到社会偏见数据影响,从而表现出性别偏见的问题。提出了一种新的“首先定位然后微调”(LFTF)算法,该算法通过BMI评分对模型中与性别偏见相关的块进行排序,优先微调相关性最高的块。实验证明,该方法在显著减轻性别偏见的同时,保持了模型的整体能力。

本研究提出了一种“首先定位然后微调”(LFTF)算法,旨在减轻大型语言模型中的性别偏见。该算法通过BMI评分对相关部分进行排序,优先微调偏见最严重的部分,实验结果表明该方法有效。

原文英文,约100词,阅读约需1分钟。发表于:
阅读原文