大型语言模型偏见缓解的知识编辑视角
原文中文,约300字,阅读约需1分钟。发表于: 。通过对现有和附加的数据集进行系统评估公平性、特异性和泛化性的互补度量,本文首先建立了一个新的偏差缓解基准 BiasKE。同时,我们提出了一种新颖的偏差缓解方法 FAST,通过对个体偏见知识进行细粒度校准,实现可编辑的公平性。全面的实验证明,FAST 在保留知识的整体模型能力的同时,优于现有技术基线,具有显著的偏差缓解性能,突出了 LLM 中可编辑公平性的细粒度偏差缓解策略的前景。
本研究提出了一种四阶段的框架来评估大型语言模型生成的内容中的刻板印象和偏见,并以教育领域为案例研究构建了Edu-FairBench。实验结果显示五个LLMs存在不同程度的刻板印象和偏见,自动评估方法与人工注释相关性高。