小红花·文摘

人工智能治理手册：如何构建真正可交付的负责任AI系统

freeCodeCamp.org ·

CustomerAI – 一个开源工具包，用于检测和缓解企业人工智能系统中的偏见

DEV Community ·

本研究提出了BIASINSPECTOR框架，旨在自动检测结构化数据中的偏见，克服现有技术的局限性。该框架通过多代理协作，有效识别偏见，提升数据应用的公正性。

BIASINSPECTOR: Detecting Bias in Structured Data through Large Language Model Agents

BriefGPT - AI 论文速递 ·

本研究提出了一种新方法，通过规则定义检测训练数据中的偏见和缺陷，以建立可信的模型基准。该方法适用于小规模数据集，扩展了传统统计测试的应用。

Statistical Testing of Undesirable Error Patterns in Training Data Using Rule-Based Regression

BriefGPT - AI 论文速递 ·

人工智能模型测试中的自动化：工具与策略

DEV Community ·

大型语言模型输出中的偏见检测：统计方法

MachineLearningMastery.com ·

本研究提出了一种新方法，针对多保护属性下的偏见检测问题，将其重新定义为测度空间中的点到子空间问题，展示了高效的子抽样能力，具有重要的实际应用价值。

子样本点到子空间距离的偏见检测样本复杂性

BriefGPT - AI 论文速递 ·

本研究探讨了新闻文章中的多重偏见，强调综合性偏见检测的重要性。通过大型语言模型构建数据集，使用多种检测技术，旨在提高新闻文章的完整性，增强公众对媒体的信任。

Decoding News Bias: Multi-Bias Detection in News Articles

BriefGPT - AI 论文速递 ·

本研究提出了ViLBias框架，结合语言模型与视觉-语言模型，提升偏见新闻检测的准确性3至5%。该方法为媒体偏见检测提供了更强大且可扩展的解决方案。

ViLBias：一种利用语言和视觉线索进行偏见检测的框架

BriefGPT - AI 论文速递 ·

本研究探讨了自然语言处理中的偏见检测与减轻方法，尤其是在机器翻译领域。分析表明，现有研究主要集中于少数语言，未来应扩大研究范围以提升多样性。

机器翻译中偏见检测与减轻的现状综述：关注非洲和欧洲语言

BriefGPT - AI 论文速递 ·

我们提出了一种定量分析AI系统中公平问题的方法，并应用于信用评分。使用BRIO工具评估AI系统的不公正行为，包括偏见检测和不公平风险评估模块。通过分析德国信用数据集，量化了不同人口统计分布中的公平性，以确定信用评分模型中的潜在偏见和歧视来源。研究结果与收入分析相结合。

使用 BRIO 工具评估信用评分中的人工智能公平性

BriefGPT - AI 论文速递 ·

本文提出了一种新的基于风险差的算法，通过创建因果贝叶斯知识图，发现了机器学习模型中的偏见，并提出了快速适应的偏差控制方法。在合成和实际数据集上进行了广泛实验，证明了该方法可以高效地检测偏见并减轻模型输出上的偏见，同时在训练样本量少的未见任务上具有较好的精度和公平度的泛化能力。

直接歧视的结构证据的本地因果发现

BriefGPT - AI 论文速递 ·

该文介绍了一个名为“Nbias”的框架，用于检测和消除文本数据中的偏见，确保数据的公正和道德使用。该框架包括数据层、语料库构建、模型开发层和评估层，并应用了基于transformer的标记分类模型识别具有独特命名实体的偏见词语/短语。通过定量和定性评估的混合方法，该方法能够取得1%至8%的准确率改进，并促进了文本数据的公正和道德使用。

IBADR: 一个迭代的认知偏差数据修正框架用于消除 NLU 模型的偏见

BriefGPT - AI 论文速递 ·

本文提出了一种新的基于风险差的算法，用于量化受保护变量在图中的歧视影响力，并提出了一种快速适应的偏差控制方法，以减少元学习中组的不公平性。实验结果表明，该方法可以高效地检测偏见并减轻模型输出上的偏见以及对训练样本量少的未见任务的精度和公平度的泛化。

（可预测的）无监督异常检测中的性能偏差

BriefGPT - AI 论文速递 ·

该研究探索了新兴的提示工程领域，应用于检测语言模型偏见的下游任务。研究者设计了4种不同类型偏见的提示，并在多个模型上应用这些提示进行评估。研究者提供了这些模型的比较分析，并采用两种方法进行评估。

使用基于提示的学习检测自然语言偏见

BriefGPT - AI 论文速递 ·

本文提出了一种新的基于风险差的算法，通过创建因果贝叶斯知识图，发现了机器学习模型中的偏见，并量化了每个受保护变量在图中的歧视影响力。同时，还提出了一种快速适应的偏差控制方法，有效减少了元学习中组的不公平性。通过实验验证了该方法可以高效地检测偏见，并减轻模型输出上的偏见，同时在训练样本量少的未见任务上具有较好的精度和公平度的泛化能力。

具备辅助集的公平少样本学习

BriefGPT - AI 论文速递 ·