A New Interpretability Metric for Explaining Bias in Language Models: Applications in Southeast Asian Multilingual Models

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

研究探讨预训练语言模型中的偏见和可解释性,提出“偏见归因得分”方法。发现东南亚多语言模型存在性别歧视和恐同偏见,尤其在犯罪、亲密关系和互助主题上明显。使用时需谨慎。

🎯

关键要点

  • 研究探讨预训练语言模型中的偏见和可解释性问题。
  • 提出了一种新颖的“偏见归因得分”度量,灵感来源于信息论。
  • 研究发现东南亚多语言模型存在性别歧视和恐同偏见。
  • 特定主题(如犯罪、亲密关系和互助)显著推动了这些偏见的表现。
  • 在使用这些模型时需更加谨慎。
➡️

继续阅读