GenderCARE:评估和减少大型语言模型中性别偏见的综合框架
原文中文,约2600字,阅读约需6分钟。发表于: 。本研究针对大型语言模型(LLMs)在自然语言生成中放大性别相关社会偏见的问题,提出了GenderCARE框架,以构建灵活而全面的评估标准、偏见评估、减少技术及评估指标。研究表明,该框架能显著减少性别偏见,且在保持模型性能的同时,实现过90%的偏差降低,为实现LLMs的公平性和公正性提供了新的解决方案。
本研究提出了GenderCARE框架,用于减少大型语言模型中的性别偏见,并提供了新的解决方案。研究还发现了性别偏见的定义、评估和减轻方法,以及大型语言模型中的偏见存在。此外,还提出了一种无需预定义性别短语和刻板印象的条件文本生成机制来检测性别偏见。研究结果表明,不同语言中都存在显著的性别偏见。最后,通过开发GenderAlign数据集和调整语言结构,可以减轻大型语言模型中的性别偏见。