小红花·文摘

分析大型语言模型中的方言偏见以评估知识和推理基准

Apple Machine Learning Research ·

本研究探讨大型语言模型的性别偏见表现，发现其能够中等程度推测性别，但仍受刻板印象影响，需加强偏见缓解策略。

Analysis of Gender Bias and Stereotypes in Large Language Models: Based on Online Shopping Data

BriefGPT - AI 论文速递 ·

本研究分析了预训练语言模型中的性别偏见，揭示了不同模型在性别编码上的一致性，并指出常见去偏见技术效果有限，甚至可能加剧偏见，为改善偏见缓解策略提供了指导。

预训练语言模型表示中的性别编码模式

BriefGPT - AI 论文速递 ·

本研究提出了一种新的公平性准则——极端反事实歧视（ECD），用于评估基于受保护群体的最坏情况不平等。研究表明，现有的偏见缓解措施在某些情况下可能加重歧视，而ECD缓解器在90%的情况下改善了极端情况下的公平性。

通过极值理论进行公平性测试

BriefGPT - AI 论文速递 ·

本研究提出了一种名为FairTTTS的新型后处理偏见缓解方法，旨在解决机器学习模型中的偏见问题。该方法通过调整保护属性节点的决策，提升弱势群体的公正性，并在七个数据集上验证了其显著提高公平性和准确性的效果。

FairTTTS: A Fairness-Aware Classification Tree Testing Time Simulation Method

BriefGPT - AI 论文速递 ·

本研究探讨生成语言模型中的偏见与任务特定缺陷之间的关系，提出了一种偏见缓解框架，通过指令微调减少了60%以上的刻板印象输出，强调了区分“偏见”与其他错误的重要性。

Biased or Flawed? Mitigating Bias in Generative Language Models by Addressing Task-Specific Flaws

BriefGPT - AI 论文速递 ·

该研究探讨了深度学习生成文本中的社会偏见，发现机器生成的文本在多个领域比人类撰写的文本更具偏见。研究提出了新的偏差测量数据集和评估框架，强调在评估大型语言模型的公平性时需谨慎，尤其是在经济偏见和人口属性方面。研究结果表明，偏见在不同模型中普遍存在，呼吁采取有效的偏见缓解技术。

评估大型语言模型开放式生成偏见的指标模型偏见基准

BriefGPT - AI 论文速递 ·

本研究提出了一种新预处理策略ProxiMix，结合mixup方法和偏见缓解算法，改善数据增强的公平性。实验表明，ProxiMix在预测和公平性补救方面表现优异。

ProxiMix: Enhancing Subgroup Fairness through Proximal Sample Augmentation

BriefGPT - AI 论文速递 ·

本文探讨机器学习中的鲁棒性表征及虚假相关性，提出基于最小充分统计量的鲁棒表征方法，并利用分组分布式优化应对数据偏移。研究表明，该方法在图像和语言任务中表现优越。此外，提出了多任务学习的偏见缓解技术，以优化准确性与公平性之间的权衡，增强模型的可解释性。实验验证了方法的有效性，解决了偏见缓解的可推广性问题。

通过多目标优化提高对多重虚假相关性的鲁棒性

BriefGPT - AI 论文速递 ·

本文综述了大型语言模型（LLMs）中的社会偏见评估与缓解技术，探讨了偏见的概念、评估指标及干预方法。研究表明，LLMs在输出中存在显著偏见，影响其作为评估器的可靠性。通过控制实验，分析了偏见对选择行为的影响，并提出设计无偏LLMs应用的建议。研究强调了偏见的复杂性及其对模型性能的影响，呼吁未来研究关注偏见的缓解策略。

更多即是更多：大型语言模型中的加法偏见

BriefGPT - AI 论文速递 ·

本文介绍了一种基于多任务学习的偏见缓解方法，通过利用Monte-Carlo dropout和Pareto优势的概念，在不使用敏感信息的情况下同时优化准确性和公平性。该方法在三个数据集上进行了测试，展示了在模型公平性和性能之间的最理想权衡。通过该方法，可以解决机器学习中偏见缓解方法的可推广性问题。

信任公平数据：利用质量优化公平导向的数据去除技术

BriefGPT - AI 论文速递 ·