小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
分析大型语言模型中的方言偏见以评估知识和推理基准

大型语言模型(LLMs)在自然语言处理中的应用广泛,但对非标准英语方言的表现较差。研究显示,将“标准”美式英语问题视为非标准方言变体时,准确率下降可达20%。特定语法规则(如存在性“it”、零连系动词和“y’all”)对多方言的表现影响显著。呼吁未来研究关注高影响力语法结构的偏见缓解方法。

分析大型语言模型中的方言偏见以评估知识和推理基准

Apple Machine Learning Research
Apple Machine Learning Research · 2025-10-09T00:00:00Z

本研究探讨大型语言模型的性别偏见表现,发现其能够中等程度推测性别,但仍受刻板印象影响,需加强偏见缓解策略。

Analysis of Gender Bias and Stereotypes in Large Language Models: Based on Online Shopping Data

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-02T00:00:00Z

本研究分析了预训练语言模型中的性别偏见,揭示了不同模型在性别编码上的一致性,并指出常见去偏见技术效果有限,甚至可能加剧偏见,为改善偏见缓解策略提供了指导。

预训练语言模型表示中的性别编码模式

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-09T00:00:00Z

本研究提出了一种新的公平性准则——极端反事实歧视(ECD),用于评估基于受保护群体的最坏情况不平等。研究表明,现有的偏见缓解措施在某些情况下可能加重歧视,而ECD缓解器在90%的情况下改善了极端情况下的公平性。

通过极值理论进行公平性测试

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-20T00:00:00Z

本研究提出了一种名为FairTTTS的新型后处理偏见缓解方法,旨在解决机器学习模型中的偏见问题。该方法通过调整保护属性节点的决策,提升弱势群体的公正性,并在七个数据集上验证了其显著提高公平性和准确性的效果。

FairTTTS: A Fairness-Aware Classification Tree Testing Time Simulation Method

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-14T00:00:00Z

本研究探讨生成语言模型中的偏见与任务特定缺陷之间的关系,提出了一种偏见缓解框架,通过指令微调减少了60%以上的刻板印象输出,强调了区分“偏见”与其他错误的重要性。

Biased or Flawed? Mitigating Bias in Generative Language Models by Addressing Task-Specific Flaws

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-16T00:00:00Z

该研究探讨了深度学习生成文本中的社会偏见,发现机器生成的文本在多个领域比人类撰写的文本更具偏见。研究提出了新的偏差测量数据集和评估框架,强调在评估大型语言模型的公平性时需谨慎,尤其是在经济偏见和人口属性方面。研究结果表明,偏见在不同模型中普遍存在,呼吁采取有效的偏见缓解技术。

评估大型语言模型开放式生成偏见的指标模型偏见基准

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-14T00:00:00Z

本研究提出了一种新预处理策略ProxiMix,结合mixup方法和偏见缓解算法,改善数据增强的公平性。实验表明,ProxiMix在预测和公平性补救方面表现优异。

ProxiMix: Enhancing Subgroup Fairness through Proximal Sample Augmentation

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-02T00:00:00Z

本文探讨机器学习中的鲁棒性表征及虚假相关性,提出基于最小充分统计量的鲁棒表征方法,并利用分组分布式优化应对数据偏移。研究表明,该方法在图像和语言任务中表现优越。此外,提出了多任务学习的偏见缓解技术,以优化准确性与公平性之间的权衡,增强模型的可解释性。实验验证了方法的有效性,解决了偏见缓解的可推广性问题。

通过多目标优化提高对多重虚假相关性的鲁棒性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-05T00:00:00Z

本文综述了大型语言模型(LLMs)中的社会偏见评估与缓解技术,探讨了偏见的概念、评估指标及干预方法。研究表明,LLMs在输出中存在显著偏见,影响其作为评估器的可靠性。通过控制实验,分析了偏见对选择行为的影响,并提出设计无偏LLMs应用的建议。研究强调了偏见的复杂性及其对模型性能的影响,呼吁未来研究关注偏见的缓解策略。

更多即是更多:大型语言模型中的加法偏见

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-04T00:00:00Z

本文介绍了一种基于多任务学习的偏见缓解方法,通过利用Monte-Carlo dropout和Pareto优势的概念,在不使用敏感信息的情况下同时优化准确性和公平性。该方法在三个数据集上进行了测试,展示了在模型公平性和性能之间的最理想权衡。通过该方法,可以解决机器学习中偏见缓解方法的可推广性问题。

信任公平数据:利用质量优化公平导向的数据去除技术

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-21T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码