Bias Vector: Mitigating Bias in Language Models through Task Arithmetic Methods
💡
原文英文,约100词,阅读约需1分钟。
📝
内容提要
本研究提出了一种“偏差向量”方法,以减少语言模型中的偏见。通过在有偏数据上训练并减去偏差向量,研究表明该方法在SEAT上提升了0.177点,且未影响下游任务性能。
🎯
关键要点
- 本研究提出了一种名为“偏差向量”的新方法,旨在减少语言模型中的偏见和刻板印象问题。
- 该方法通过在有偏数据上持续训练,构建偏差向量,并从预训练模型的权重中减去偏差向量。
- 研究表明,偏差向量方法在SEAT上提升了平均0.177点。
- 该方法未对下游任务的性能产生影响。
➡️