大型语言模型(LLMs)在自然语言处理中的应用广泛,但对非标准英语方言的表现较差。研究显示,将“标准”美式英语问题视为非标准方言变体时,准确率下降可达20%。特定语法规则(如存在性“it”、零连系动词和“y’all”)对多方言的表现影响显著。呼吁未来研究关注高影响力语法结构的偏见缓解方法。
本研究探讨大型语言模型的性别偏见表现,发现其能够中等程度推测性别,但仍受刻板印象影响,需加强偏见缓解策略。
本研究分析了预训练语言模型中的性别偏见,揭示了不同模型在性别编码上的一致性,并指出常见去偏见技术效果有限,甚至可能加剧偏见,为改善偏见缓解策略提供了指导。
本研究提出了一种新的公平性准则——极端反事实歧视(ECD),用于评估基于受保护群体的最坏情况不平等。研究表明,现有的偏见缓解措施在某些情况下可能加重歧视,而ECD缓解器在90%的情况下改善了极端情况下的公平性。
本研究提出了一种名为FairTTTS的新型后处理偏见缓解方法,旨在解决机器学习模型中的偏见问题。该方法通过调整保护属性节点的决策,提升弱势群体的公正性,并在七个数据集上验证了其显著提高公平性和准确性的效果。
本研究探讨生成语言模型中的偏见与任务特定缺陷之间的关系,提出了一种偏见缓解框架,通过指令微调减少了60%以上的刻板印象输出,强调了区分“偏见”与其他错误的重要性。
该研究探讨了深度学习生成文本中的社会偏见,发现机器生成的文本在多个领域比人类撰写的文本更具偏见。研究提出了新的偏差测量数据集和评估框架,强调在评估大型语言模型的公平性时需谨慎,尤其是在经济偏见和人口属性方面。研究结果表明,偏见在不同模型中普遍存在,呼吁采取有效的偏见缓解技术。
本研究提出了一种新预处理策略ProxiMix,结合mixup方法和偏见缓解算法,改善数据增强的公平性。实验表明,ProxiMix在预测和公平性补救方面表现优异。
本文探讨机器学习中的鲁棒性表征及虚假相关性,提出基于最小充分统计量的鲁棒表征方法,并利用分组分布式优化应对数据偏移。研究表明,该方法在图像和语言任务中表现优越。此外,提出了多任务学习的偏见缓解技术,以优化准确性与公平性之间的权衡,增强模型的可解释性。实验验证了方法的有效性,解决了偏见缓解的可推广性问题。
本文综述了大型语言模型(LLMs)中的社会偏见评估与缓解技术,探讨了偏见的概念、评估指标及干预方法。研究表明,LLMs在输出中存在显著偏见,影响其作为评估器的可靠性。通过控制实验,分析了偏见对选择行为的影响,并提出设计无偏LLMs应用的建议。研究强调了偏见的复杂性及其对模型性能的影响,呼吁未来研究关注偏见的缓解策略。
本文介绍了一种基于多任务学习的偏见缓解方法,通过利用Monte-Carlo dropout和Pareto优势的概念,在不使用敏感信息的情况下同时优化准确性和公平性。该方法在三个数据集上进行了测试,展示了在模型公平性和性能之间的最理想权衡。通过该方法,可以解决机器学习中偏见缓解方法的可推广性问题。
完成下面两步后,将自动完成登录并继续当前操作。