小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI
人工智能治理手册:如何构建真正可交付的负责任AI系统

2024年,加拿大法庭裁定加拿大航空公司需对其聊天机器人的虚假丧失政策负责,尽管赔偿仅为812加元,此判决强调公司需对AI的错误承担责任。2019年的研究指出,医疗算法系统性忽视黑人患者。AI事件数据库记录了700多起失败案例,凸显治理问题的重要性。文章提供了构建AI治理系统的四个Python组件,包括模型卡生成器和偏见检测管道,以帮助开发者遵循EU AI法案和NIST AI风险管理框架。

人工智能治理手册:如何构建真正可交付的负责任AI系统

freeCodeCamp.org
freeCodeCamp.org · 2026-04-13T23:13:29Z
CustomerAI – 一个开源工具包,用于检测和缓解企业人工智能系统中的偏见

CustomerAI是一个开源工具,旨在识别和减少金融、医疗、HR和零售等领域机器学习系统中的偏见。它支持多种框架,适合云部署,并符合监管要求,提供偏见检测和缓解策略,以实现公平的AI应用。

CustomerAI – 一个开源工具包,用于检测和缓解企业人工智能系统中的偏见

DEV Community
DEV Community · 2025-05-06T08:23:32Z

本研究提出了BIASINSPECTOR框架,旨在自动检测结构化数据中的偏见,克服现有技术的局限性。该框架通过多代理协作,有效识别偏见,提升数据应用的公正性。

BIASINSPECTOR: Detecting Bias in Structured Data through Large Language Model Agents

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-04-07T00:00:00Z

本研究提出了一种新方法,通过规则定义检测训练数据中的偏见和缺陷,以建立可信的模型基准。该方法适用于小规模数据集,扩展了传统统计测试的应用。

Statistical Testing of Undesirable Error Patterns in Training Data Using Rule-Based Regression

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-03-24T00:00:00Z
人工智能模型测试中的自动化:工具与策略

随着人工智能的发展,AI模型的自动化测试变得至关重要。自动化测试提升了效率、准确性和可扩展性,能够处理复杂数据集和模型。关键领域包括数据验证、模型性能、偏见检测和可解释性。工具如Genqe.ai可简化测试流程,确保AI系统的可靠性和合规性。

人工智能模型测试中的自动化:工具与策略

DEV Community
DEV Community · 2025-03-23T06:15:47Z
大型语言模型输出中的偏见检测:统计方法

本文探讨了大型语言模型(LLM)输出中的偏见检测,强调统计方法的重要性。LLM在文本生成和情感分析等任务中表现优异,但仍存在性别、社会经济和能力等偏见。通过数据分布分析、嵌入测试和AI公平性360框架等方法,可以量化和检测这些偏见。研究者们致力于提高模型的透明度和公平性,以减少偏见带来的歧视。

大型语言模型输出中的偏见检测:统计方法

MachineLearningMastery.com
MachineLearningMastery.com · 2025-03-21T16:46:32Z

本研究提出了一种新方法,针对多保护属性下的偏见检测问题,将其重新定义为测度空间中的点到子空间问题,展示了高效的子抽样能力,具有重要的实际应用价值。

子样本点到子空间距离的偏见检测样本复杂性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z

本研究探讨了新闻文章中的多重偏见,强调综合性偏见检测的重要性。通过大型语言模型构建数据集,使用多种检测技术,旨在提高新闻文章的完整性,增强公众对媒体的信任。

Decoding News Bias: Multi-Bias Detection in News Articles

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-01-05T00:00:00Z

本研究提出了ViLBias框架,结合语言模型与视觉-语言模型,提升偏见新闻检测的准确性3至5%。该方法为媒体偏见检测提供了更强大且可扩展的解决方案。

ViLBias:一种利用语言和视觉线索进行偏见检测的框架

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-12-22T00:00:00Z

本文分析了大型语言模型中的偏见检测方法,比较了语境化和静态单词嵌入的效果,强调了去偏方法的必要性,并提出了缓解策略以增强模型性能。

注意力显示量级:定位和减轻语言模型中的偏见

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-29T00:00:00Z

本研究探讨了自然语言处理中的偏见检测与减轻方法,特别是在机器翻译领域。分析表明,现有研究主要集中于少数语言,未来应扩大研究范围以提高多样性。

Current State of Bias Detection and Mitigation in Machine Translation: Focus on African and European Languages

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-28T00:00:00Z

本文探讨了机器学习中实现公平性的多种方法,包括对抗学习、偏见检测和数据预处理算法。研究提出了新的分类器和算法,旨在减少训练数据中的不公平性,并通过实证分析验证其有效性。这些方法强调在不损害模型准确性的情况下提高公平性和透明度。

通过对抗学习实现预测过程分析中的公平性(扩展版)

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-10-03T00:00:00Z

该论文提出了一种自动化流程,用于抓取和检测大学报纸档案中的偏见,生成了包含23,154个条目的数据集。通过比较语言模型摘要与原文情绪,计算偏见。研究发现现有自动模型在偏见检测上能力不足,需改进。提出的DocNet模型在资源有限环境中表现优越,能有效检测政治偏见。未来研究应整合最新机器学习进展,提升偏见评估策略。

BiasScanner:自动检测和分类新闻偏见以加强民主

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-07-15T00:00:00Z

IndiBias是一个评估印度社会偏见的数据集,包含800个句子,提供英语和印地语版本。研究比较了不同语言模型的偏见表现,发现大多数模型在交叉群体中存在偏见。文章分析了偏见检测方法的有效性,并提出改进方向,以建立更公平的语言模型。

孟加拉语的背景长度变化特征的实证研究

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-25T00:00:00Z

本文探讨了自然语言生成中的厌恶问题,指出通用的“有害性”分类器不足以评估。通过分析 Reddit 上的 Incel 社区数据,研究表明特定词汇索引方法能更有效地评估厌恶。同时介绍了 Biasly 数据集,旨在捕捉对女性的厌恶,适用于多种 NLP 任务,促进 AI 在偏见检测和消除中的社会价值。

PejorativITy: 消除贬低性别词汇以提高对意大利推文中的厌女植入的检测

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-03T00:00:00Z

本研究探讨了社交媒体文本摘要模型的偏见问题,发现大多数模型存在固有偏见。通过调整训练数据的主题多样性和微调方法,提出了一种改进的摘要生成框架,能够生成更高质量和一致性的摘要。此外,研究还介绍了基于推文的政治偏见检测和个性化摘要生成方法,显示出在多个基准测试中优于传统技术。

情感极性校准用于观点摘要

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-04-02T00:00:00Z

该文介绍了一个名为“Nbias”的框架,用于检测和消除文本数据中的偏见,确保数据的公正和道德使用。该框架包括数据层、语料库构建、模型开发层和评估层,并应用了基于transformer的标记分类模型识别具有独特命名实体的偏见词语/短语。通过定量和定性评估的混合方法,该方法能够取得1%至8%的准确率改进,并促进了文本数据的公正和道德使用。

IBADR: 一个迭代的认知偏差数据修正框架用于消除 NLU 模型的偏见

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-11-01T00:00:00Z

本文提出了一种新的基于风险差的算法,用于量化受保护变量在图中的歧视影响力,并提出了一种快速适应的偏差控制方法,以减少元学习中组的不公平性。实验结果表明,该方法可以高效地检测偏见并减轻模型输出上的偏见以及对训练样本量少的未见任务的精度和公平度的泛化。

(可预测的)无监督异常检测中的性能偏差

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-25T00:00:00Z

该研究探索了新兴的提示工程领域,应用于检测语言模型偏见的下游任务。研究者设计了4种不同类型偏见的提示,并在多个模型上应用这些提示进行评估。研究者提供了这些模型的比较分析,并采用两种方法进行评估。

使用基于提示的学习检测自然语言偏见

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-11T00:00:00Z

本文提出了一种新的基于风险差的算法,通过创建因果贝叶斯知识图,发现了机器学习模型中的偏见,并量化了每个受保护变量在图中的歧视影响力。同时,还提出了一种快速适应的偏差控制方法,有效减少了元学习中组的不公平性。通过实验验证了该方法可以高效地检测偏见,并减轻模型输出上的偏见,同时在训练样本量少的未见任务上具有较好的精度和公平度的泛化能力。

具备辅助集的公平少样本学习

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-08-28T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
友情链接: MOGE.AI 九胧科技 模力方舟 Gitee AI 菜鸟教程 Remio.AI DeekSeek连连 53AI 神龙海外代理IP IPIPGO全球代理IP 东波哥的博客 匡优考试在线考试系统 开源服务指南 蓝莺IM Solo 独立开发者社区 AI酷站导航 极客Fun 我爱水煮鱼 周报生成器 He3.app 简单简历 白鲸出海 T沙龙 职友集 TechParty 蟒周刊 Best AI Music Generator

小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码