QueerBench:度量语言模型对酷儿身份的歧视

💡 原文中文,约2200字,阅读约需6分钟。
📝

内容提要

本文分析社交媒体内容审查对性别多元化言语的偏见,探讨大型语言模型(LLMs)在处理LGBTQ+相关文本时的表现。研究发现,LLMs存在反同性恋偏见,但通过微调模型可减轻这种偏见。此外,提出了一种新方法LDFighter,以减少语言歧视,确保不同语言用户获得一致服务。

🎯

关键要点

  • 社交媒体内容审查对性别多元化言语存在偏见,尤其是反同性恋偏见。
  • 大型语言模型(LLMs)在处理LGBTQ+相关文本时表现出反同性恋偏见,但通过微调可以减轻这种偏见。
  • 引入新的基准数据集WinoQueer,发现开箱即用的模型通常存在较大的反同偏见。
  • 研究表明,社交媒体文本比非成员编写的新闻文本更有效地缓解偏见。
  • 提出了一种新方法LDFighter,通过相似度投票机制减轻语言歧视,确保不同语言用户获得一致服务。
  • LLMs在多语言支持方面表现良好,但由于训练数据不均衡,可能导致语言歧视。
  • 研究发现,所有评估的语言模型存在性别刻板印象,多语言变体的偏见相对较小。

延伸问答

大型语言模型在处理LGBTQ+文本时存在哪些偏见?

大型语言模型在处理LGBTQ+相关文本时表现出明显的反同性恋偏见。

如何减轻大型语言模型中的反同性恋偏见?

通过对模型进行微调,使用LGBTQ+成员撰写的自然语言语料库,可以减轻反同性恋偏见。

什么是WinoQueer数据集,它的作用是什么?

WinoQueer是一个基准数据集,用于衡量大型语言模型对LGBTQ+社区的偏见。

LDFighter方法是如何工作的?

LDFighter通过相似度投票机制来减轻语言歧视,确保不同语言用户获得一致服务。

社交媒体文本与新闻文本在偏见缓解方面有什么不同?

社交媒体文本比非成员编写的新闻文本更有效地缓解偏见。

大型语言模型在多语言支持方面的表现如何?

大型语言模型通常具有良好的多语言支持,但由于训练数据不均衡,可能导致语言歧视。

➡️

继续阅读