SAGED：一个全面的语言模型偏见基准测试管道，具有可定制的公平性校准

本研究针对现有基准在偏见检测方面的不足，提出了SAGED(-Bias)这一全面的基准测试管道。通过整合多种评估指标和采用反事实分支的创新方法，SAGED能够更准确地评估语言模型的偏见表现，研究发现模型对特定国家的偏见仍然明显，尤其在角色扮演任务中表现出显著的性能偏差。

本文旨在量化和减少语言模型中的情感偏见。研究发现敏感属性的变化会影响生成文本的情感。使用公平机器学习的方法证明了大规模模型在新闻和维基百科语料库上存在高偏见。提出了使用嵌入和情感预测导出的正则化方法来提高公正度量。该方法在保持困惑度和语义相似性的同时，提高了公正度量。

公平机器学习公正度量基准测试情感偏见正则化方法语言模型