小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
解决“打地鼠困境”:一种更智能的去偏见AI视觉模型的方法

WRING是一种新型去偏见技术,通过调整模型中特定坐标的表示方式,减少目标概念的偏见,同时不增加其他领域的偏见。该方法高效且无需重新训练模型,适用于视觉语言模型(VLM),如CLIP模型。研究表明,WRING在减少偏见方面效果显著。

解决“打地鼠困境”:一种更智能的去偏见AI视觉模型的方法

MIT News - Artificial intelligence
MIT News - Artificial intelligence · 2026-04-29T21:40:00Z

马斯克的Grokipedia和SciencePedia在AI重写知识库方面各有侧重。Grokipedia旨在成为Wikipedia的替代品,强调去偏见,但上线遇挫。SciencePedia专注于科学知识的结构化,提供可验证的知识网络,目标更务实。两者面向不同用户,前者适合快速获取信息,后者适合深入学习与研究。

AI 重写知识库?马斯克 Grokipedia 对上科学界的 SciencePedia,Wikipedia:那我走?

量子位
量子位 · 2025-10-29T10:16:15Z

本研究探讨大型语言模型(LLMs)在社会模拟中作为类人决策代理的行为,填补了其角色和上下文影响的研究空白。研究提出了一种定量修改决策过程的方法,旨在对AI代理的设计和去偏见产生重要影响。

引导亲社会AI代理:大型语言模型在社会模拟中的决策计算基础

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-16T00:00:00Z

本研究提出了一种弯曲VLM方法,旨在解决视觉语言模型嵌入中的社会偏见问题。该方法无需微调,能够根据输入动态调整去偏见操作,从而提升灵活性和适用性。

Curved Vision-Language Models: Debiasing Visual-Language Embeddings at Inference

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-07T00:00:00Z

本文探讨了仇恨言论的检测与分类,提出了基于理论的分类系统和数据集,分析了仇恨言论的特征及其对特定身份群体的影响。研究表明,机器学习工具在检测仇恨言论时存在偏见,强调数据质量的重要性,并提出了去偏见的方法和框架,以提高检测模型的效果。

仇恨言论注释中的人类与大型语言模型偏见:注释者与目标的社会人口学分析

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-10T00:00:00Z

本研究分析预训练语言模型中的社会偏见问题,发现去偏见后模型的词语表示对齐度下降。提出了一种微调方法,提升去偏见的公平性,同时保持自然语言理解任务的性能。

降级语言模型促进公平性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-06T00:00:00Z

该研究探讨了大型语言模型中的社会偏见,发现机器生成文本在多个领域比人类撰写的文本更具偏见。文章提出了新的评测方法和缓解策略,强调跨学科合作以开发更公正的人工智能系统,并分析了偏见的来源及其对模型性能的影响。研究提出的去偏见方法REFINE-LM显示出显著效果。

从列表到表情符号:格式偏见如何影响模型对齐

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-18T00:00:00Z

本文提出了一种机器学习框架,利用元数据和社交网络特征检测极端用户,并预测社交媒体内容的互动反应。研究表明,该框架在推特平台的预测准确率分别为93%、80%和72%。此外,评估了GPT-3在生成极端主义文本方面的潜在滥用,呼吁采取措施防止在线激进化,并探讨了GPT-3对穆斯林的偏见问题,强调需要对大型语言模型进行去偏见工作。

评估大型语言模型在在线极端主义研究中的应用:识别、解释与新知识

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-29T00:00:00Z

本文探讨了社交媒体上仇恨言论的检测与控制,提出了一种基于知识的泛化学习方法,利用BERT模型进行迁移学习以提升检测性能。研究比较了不同检测方法,并提出去偏见框架和数据集组合策略,以提高模型的有效性和准确性,强调了对偏见的深入分析和持续学习的重要性。

自然语言处理中的偏见检测与分类研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-14T00:00:00Z

本文介绍了HateXplain,一个针对仇恨言论的基准数据集,采用多级分类和目标社区注释。研究表明,利用人类理由训练的模型能有效减少偏见。此外,提出了多语言仇恨言论检测模型和基于原因的检测框架PEACE,以提高检测的准确性和泛化能力。同时,开发了HateDebias基准测试,分析模型在不同偏见数据集上的表现,并提出去偏见框架以提升效果。

可解释的音频仇恨言论检测研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-08-12T00:00:00Z

本研究提出多种去偏见方法,利用辅助模型、优化框架和对比学习等技术,旨在减轻机器学习中的社会偏见。实验结果表明,这些方法在准确性和去偏成本上优于现有技术,尤其在处理特定子群体和图像分类器偏见方面表现突出。

使用 Datamodels(D3M)进行数据去偏:通过数据选择提高子群体鲁棒性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-24T00:00:00Z

本研究提出了一种去偏见的方法,通过辅助模型检测偏见数据并降低其权重,以缓解社交媒体上的仇恨言论。实验结果表明,该方法在偏差检测和控制方面优于传统技术。同时,研究还探讨了人口统计偏差对自然语言处理模型的影响,并提出了基于数据集平衡的公正性方法,以减少偏差。

通过减少人口统计术语的影响来提升常识偏见分类

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-11T00:00:00Z

该研究介绍了“全面优化毒性”(TET)数据集,旨在评估大型语言模型(LLMs)的毒性意识。通过分析提示和训练语料,提出有效的“解毒”方法,显示出在降低毒性和提高生成质量方面的优势。同时,研究探讨了去偏见方法及社会身份偏见的影响,强调了数据选择和文本生成过程中的伦理问题。

由专家指导的毒性符号消除以实现无偏生成

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-29T00:00:00Z
映射大语言模型的思维 [译]

研究人员通过内部观察发现AI模型中数百万个概念的表示方式,包括金门大桥和抽象概念,这些发现有助于提高模型的安全性。研究人员希望利用这些发现来监控危险行为、去偏见和改进其他安全技术。他们还发现了与阿谀奉承赞美相关的功能。然而,仍需进一步研究模型的表示和提高安全性。

映射大语言模型的思维 [译]

宝玉的分享
宝玉的分享 · 2024-05-21T16:20:00Z

本文探讨了知识图谱注入方法对大型语言模型的影响,发现模型能够有效处理混乱的知识图谱,超越传统文本提示。同时,讨论了知识图谱中的社会偏见及其缓解技术,提出了去偏见框架和评估方法,以提高模型的公正性和安全性。

BiasKG: 用对抗知识图谱在大型语言模型中引入偏见

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-05-08T00:00:00Z

本文探讨了机器学习中的公平性和图像分类的去偏见问题,提出了多种数据增强方法以提高模型的鲁棒性和准确性。研究表明,利用对抗性样本和信息瓶颈原理,能够显著提升模型在不同数据集上的表现,尤其是在对抗训练中,数据增强的多样性和难度是关键因素。

通过隐式对抗数据增强提升模型的弹性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-25T00:00:00Z

本文探讨了机器学习中的公平性和去偏见问题,提出利用对抗性样本和反事实数据来增强模型的准确性和透明度。研究使用生成对抗网络(GANs)和因果生成方法,评估模型在图像分类任务中的鲁棒性和性能。实验结果表明,反事实解释方法在检测和消除训练数据中的偏见方面具有显著优势。

利用对抗样本进行偏见缓解和准确性增强

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-18T00:00:00Z

本文综述了视觉问答(VQA)领域的研究进展,包括数据集发展、评估指标、去偏见方法和稳健性。还讨论了VQA中的视觉与语言预训练模型,并探讨了未来研究的关键领域。

属性多样性决定了 VQA 中的系统性差距

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-15T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码