小红花·文摘

AI以貌取人研究：六种模型暴露最致命视觉偏见

极道 ·

歧视不需要恶意

太隐 ·

ProText：用于测量长文本中性别化和误性别化的基准数据集

Apple Machine Learning Research ·

我黑入了Monster Energy，揭示了品牌对消费者外貌的误解和刻板印象，以及其对目标受众的定位。

Bogdanoff 双胞胎40年间的“自然”变化，他们坚称从未接受过整容手术

程序师 ·

我揭示了Monster Energy对消费者外貌的误解和刻板印象，探讨了品牌如何看待和定位目标受众。

2017年纽约联合国会议上身着部落服饰的巴布亚新几内亚代表

程序师 ·

10种程序员刻板印象

DEV Community ·

本研究探讨大型语言模型在生成多语言响应时的文化知识差异。提供文化上下文可提升模型的本地化能力，并发现可跨非英语语言使用的文化定制向量，从而增强多样性并减少刻板印象。

Retention and Controllability of Local Cultural Knowledge in Large Language Models

BriefGPT - AI 论文速递 ·

本研究探讨大型语言模型的性别偏见表现，发现其能够中等程度推测性别，但仍受刻板印象影响，需加强偏见缓解策略。

Analysis of Gender Bias and Stereotypes in Large Language Models: Based on Online Shopping Data

BriefGPT - AI 论文速递 ·

本研究探讨了大语言模型在欺骗攻击下的脆弱性，尽管经过训练以抵制误导性内容，但仍可能被突破，导致生成仇恨言论和刻板印象。因此，保护这些模型免受欺骗攻击至关重要。

Compromising the Honesty and Harmlessness of Language Models through Deception Attacks

BriefGPT - AI 论文速递 ·

本研究探讨生成语言模型中的偏见与任务特定缺陷之间的关系，提出了一种偏见缓解框架，通过指令微调减少了60%以上的刻板印象输出，强调了区分“偏见”与其他错误的重要性。

Biased or Flawed? Mitigating Bias in Generative Language Models by Addressing Task-Specific Flaws

BriefGPT - AI 论文速递 ·

「叙利亚风格」

KAIX.IN ·

评估ChatGPT的公平性

OpenAI ·

ChatGPT中的语言偏见：语言模型强化方言歧视

The Berkeley Artificial Intelligence Research Blog ·

研究表明，英语语料库中的性别偏见体现在词嵌入中，男性与技术、暴力等概念相关，女性则与外观、厨房等相关。男性词汇情感更强，女性词汇更温馨。此外，男女在语言使用、情感表达和社交网络中存在差异，揭示了性别刻板印象对语言的影响。

女性木匠像蓝色香蕉吗？职业性别典型性的语料库调查

BriefGPT - AI 论文速递 ·

本文探讨了大型语言模型（LLMs）中的社会偏见及其评估方法，提出了大型语言模型偏差指数（LLMBI）以量化多维度偏见，并强调监测和校准模型以提高公平性。实证分析显示，LLMs在文本生成中存在显著偏见，影响其作为评估器的有效性。研究还提出了新的测试和度量方式，以减少性别、种族等刻板印象的负面影响。

微妙偏见需要更微妙的度量：用于评估大型语言模型中代表性偏见和亲和偏见的双重度量

BriefGPT - AI 论文速递 ·

本研究提出了一个四阶段框架，用于评估大型语言模型（LLMs）中的刻板印象和偏见，并包含多维度评估指标。以教育领域为例，构建了Edu-FairBench，发现五个LLMs存在不同程度的偏见。研究还探讨了性别偏见的检测和缓解方法，强调提高自然语言处理系统公平性的重要性。

FairMonitor：用于检测大型语言模型中的刻板印象和偏见的双重框架

BriefGPT - AI 论文速递 ·

这项研究分析了三种流行的生成AI工具（Midjourney、Stable Diffusion和DALLE 2）中的性别和种族偏见。结果表明，AI生成的图像可能放大了训练数据中的刻板印象，且偏见与数据集大小和模型设计相关。研究还探讨了缓解这些偏见的方法及其社会影响。

深度生成模型是否会放大未来模型中的偏见？

BriefGPT - AI 论文速递 ·

本研究构建了多维度刻板印象数据集和新型分类器，评估了大型语言模型（LLM）的刻板印象行为，发现性别和种族偏见依然存在，并提出了新的评估框架以量化偏见，强调了解决人工智能中的伦理风险的重要性。

增强基于文本的刻板印象检测和基于探针的偏见评估的大型语言模型审计

BriefGPT - AI 论文速递 ·

研究发现，为ChatGPT分配假想角色会增加生成结果的亵渎程度，存在刻板印象、有害对话和伤人观点。研究呼吁AI社区重新思考安全措施，开发更好的技术实现强大、安全和值得信赖的AI系统。

GTA：门控毒性避免与语言模型性能保护

BriefGPT - AI 论文速递 ·

本研究提出了一种四阶段的框架，用于评估大型语言模型生成的内容中的刻板印象和偏见。以教育领域为案例研究，构建了Edu-FairBench，并发现五个LLMs存在不同程度的刻板印象和偏见。自动评估方法与人工注释相关性高。

社会偏见探测：语言模型的公平性基准测试

BriefGPT - AI 论文速递 ·