评估预训练与提示适应语言模型之间的性别偏见转移

评估预训练与提示适应语言模型之间的性别偏见转移

💡 原文英文,约200词,阅读约需1分钟。
📝

内容提要

大型语言模型(LLMs)在决策系统中的适应性增强,研究表明预训练模型的内在偏见与提示适应后的偏见密切相关,强调了确保预训练模型公平性的重要性。

🎯

关键要点

  • 大型语言模型(LLMs)正在被适应以实现任务特定性,适用于现实世界的决策系统。
  • 研究了偏见转移假设(BTH),发现预训练的掩码语言模型的公平性对经过微调适应的模型公平性影响有限。
  • 本研究扩展了对BTH的研究,关注在提示适应下的因果模型,提示是一种可访问且计算高效的模型部署方式。
  • 发现预训练的Mistral、Falcon和Llama模型的内在偏见与在零-shot和少量-shot提示下的偏见高度相关(rho >= 0.94)。
  • 即使在特定提示下,偏见转移仍然高度相关(rho >= 0.92),并且少量-shot长度和刻板印象组成变化时(rho >= 0.97)。
  • 研究结果强调了确保预训练LLMs公平性的重要性,尤其是在通过提示适应执行下游任务时。
➡️

继续阅读