WRING是一种新型去偏见技术,通过调整模型中特定坐标的表示方式,减少目标概念的偏见,同时不增加其他领域的偏见。该方法高效且无需重新训练模型,适用于视觉语言模型(VLM),如CLIP模型。研究表明,WRING在减少偏见方面效果显著。
马斯克的Grokipedia和SciencePedia在AI重写知识库方面各有侧重。Grokipedia旨在成为Wikipedia的替代品,强调去偏见,但上线遇挫。SciencePedia专注于科学知识的结构化,提供可验证的知识网络,目标更务实。两者面向不同用户,前者适合快速获取信息,后者适合深入学习与研究。
本研究探讨大型语言模型(LLMs)在社会模拟中作为类人决策代理的行为,填补了其角色和上下文影响的研究空白。研究提出了一种定量修改决策过程的方法,旨在对AI代理的设计和去偏见产生重要影响。
本研究提出了一种弯曲VLM方法,旨在解决视觉语言模型嵌入中的社会偏见问题。该方法无需微调,能够根据输入动态调整去偏见操作,从而提升灵活性和适用性。
本文探讨了仇恨言论的检测与分类,提出了基于理论的分类系统和数据集,分析了仇恨言论的特征及其对特定身份群体的影响。研究表明,机器学习工具在检测仇恨言论时存在偏见,强调数据质量的重要性,并提出了去偏见的方法和框架,以提高检测模型的效果。
本研究分析预训练语言模型中的社会偏见问题,发现去偏见后模型的词语表示对齐度下降。提出了一种微调方法,提升去偏见的公平性,同时保持自然语言理解任务的性能。
该研究探讨了大型语言模型中的社会偏见,发现机器生成文本在多个领域比人类撰写的文本更具偏见。文章提出了新的评测方法和缓解策略,强调跨学科合作以开发更公正的人工智能系统,并分析了偏见的来源及其对模型性能的影响。研究提出的去偏见方法REFINE-LM显示出显著效果。
本文提出了一种机器学习框架,利用元数据和社交网络特征检测极端用户,并预测社交媒体内容的互动反应。研究表明,该框架在推特平台的预测准确率分别为93%、80%和72%。此外,评估了GPT-3在生成极端主义文本方面的潜在滥用,呼吁采取措施防止在线激进化,并探讨了GPT-3对穆斯林的偏见问题,强调需要对大型语言模型进行去偏见工作。
本文探讨了社交媒体上仇恨言论的检测与控制,提出了一种基于知识的泛化学习方法,利用BERT模型进行迁移学习以提升检测性能。研究比较了不同检测方法,并提出去偏见框架和数据集组合策略,以提高模型的有效性和准确性,强调了对偏见的深入分析和持续学习的重要性。
本文介绍了HateXplain,一个针对仇恨言论的基准数据集,采用多级分类和目标社区注释。研究表明,利用人类理由训练的模型能有效减少偏见。此外,提出了多语言仇恨言论检测模型和基于原因的检测框架PEACE,以提高检测的准确性和泛化能力。同时,开发了HateDebias基准测试,分析模型在不同偏见数据集上的表现,并提出去偏见框架以提升效果。
本研究提出多种去偏见方法,利用辅助模型、优化框架和对比学习等技术,旨在减轻机器学习中的社会偏见。实验结果表明,这些方法在准确性和去偏成本上优于现有技术,尤其在处理特定子群体和图像分类器偏见方面表现突出。
本研究提出了一种去偏见的方法,通过辅助模型检测偏见数据并降低其权重,以缓解社交媒体上的仇恨言论。实验结果表明,该方法在偏差检测和控制方面优于传统技术。同时,研究还探讨了人口统计偏差对自然语言处理模型的影响,并提出了基于数据集平衡的公正性方法,以减少偏差。
该研究介绍了“全面优化毒性”(TET)数据集,旨在评估大型语言模型(LLMs)的毒性意识。通过分析提示和训练语料,提出有效的“解毒”方法,显示出在降低毒性和提高生成质量方面的优势。同时,研究探讨了去偏见方法及社会身份偏见的影响,强调了数据选择和文本生成过程中的伦理问题。
研究人员通过内部观察发现AI模型中数百万个概念的表示方式,包括金门大桥和抽象概念,这些发现有助于提高模型的安全性。研究人员希望利用这些发现来监控危险行为、去偏见和改进其他安全技术。他们还发现了与阿谀奉承赞美相关的功能。然而,仍需进一步研究模型的表示和提高安全性。
本文探讨了知识图谱注入方法对大型语言模型的影响,发现模型能够有效处理混乱的知识图谱,超越传统文本提示。同时,讨论了知识图谱中的社会偏见及其缓解技术,提出了去偏见框架和评估方法,以提高模型的公正性和安全性。
本文探讨了机器学习中的公平性和图像分类的去偏见问题,提出了多种数据增强方法以提高模型的鲁棒性和准确性。研究表明,利用对抗性样本和信息瓶颈原理,能够显著提升模型在不同数据集上的表现,尤其是在对抗训练中,数据增强的多样性和难度是关键因素。
本文探讨了机器学习中的公平性和去偏见问题,提出利用对抗性样本和反事实数据来增强模型的准确性和透明度。研究使用生成对抗网络(GANs)和因果生成方法,评估模型在图像分类任务中的鲁棒性和性能。实验结果表明,反事实解释方法在检测和消除训练数据中的偏见方面具有显著优势。
本文综述了视觉问答(VQA)领域的研究进展,包括数据集发展、评估指标、去偏见方法和稳健性。还讨论了VQA中的视觉与语言预训练模型,并探讨了未来研究的关键领域。
完成下面两步后,将自动完成登录并继续当前操作。