小红花·文摘
  • 首页
  • 广场
  • 排行榜🏆
  • 直播
  • FAQ
Dify.AI

本研究提出了一种半自动化的偏见评估框架,结合人类洞察力,旨在解决大型语言模型(LLM)评估中的偏见识别问题。通过开发偏见的操作定义和分类方法,提高评估的有效性,降低大规模人类评估的成本和复杂性。

Developing a Framework to Support Human Evaluation of Bias in Generated Free Response Text

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-05-05T00:00:00Z

本文提出了一种新颖的度量方法——最大子群差异(MSD),有效解决了经典度量方法在偏见评估中的高样本复杂度问题。MSD以线性样本复杂度评估特征子群的偏差,并提供实用算法和修复路径,实证结果表明其优于其他方法。

Detecting Bias through Maximum Subgroup Difference

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2025-02-04T00:00:00Z

本研究探讨大型语言模型中的性别多样性偏见,特别是对跨性别和非二元性别身份的影响。评估发现,经过对齐的模型在某些阶段可能加剧现实中的性别伤害。建议采用社区知情的偏见评估框架,以更有效识别和应对这些问题。

The Root Shapes the Fruit: The Persistence of Gender-Exclusive Harms in Aligned Language Models

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-11-06T00:00:00Z

大型语言模型(LLMs)存在种族和性别等隐性偏见,影响用户体验和决策。研究提出了新的偏见测量方法,强调对AI系统中偏见的持续评估和缓解,以促进伦理AI的发展。

通过序数原型分析建模人类反应

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-09-12T00:00:00Z

本文提出了一种评估大型语言模型偏见的新方法,构建了跨多个维度的数据集GFair,并引入GF-Think思维链方法以减轻偏见。研究表明,GPT-4在准确性和公平性方面优于其他模型,强调了公平性在人工智能中的重要性。

基于 LLM 的决策中引导群体公平性

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2024-06-24T00:00:00Z

本文提出了一种评估预训练语言模型中偏见的方法,并在多种语言的模型上进行了元评估,证明该方法更准确。同时,本文还构建了日语和中文的自然语言推理任务评估数据集,测量了预训练语言模型的偏见倾向。

考虑所有标签来评估预训练语言模型在自然语言推理中的性别偏见

BriefGPT - AI 论文速递
BriefGPT - AI 论文速递 · 2023-09-18T00:00:00Z
  • <<
  • <
  • 1 (current)
  • >
  • >>
👤 个人中心
在公众号发送验证码完成验证
登录验证
在本设备完成一次验证即可继续使用

完成下面两步后,将自动完成登录并继续当前操作。

1 关注公众号
小红花技术领袖公众号二维码
小红花技术领袖
如果当前 App 无法识别二维码,请在微信搜索并关注该公众号
2 发送验证码
在公众号对话中发送下面 4 位验证码
小红花技术领袖俱乐部
小红花·文摘:汇聚分发优质内容
小红花技术领袖俱乐部
Copyright © 2021-
粤ICP备2022094092号-1
公众号 小红花技术领袖俱乐部公众号二维码
视频号 小红花技术领袖俱乐部视频号二维码