Intrinsic Bias Predicted by Pre-training Data and Its Relation to the Downstream Performance of Vision-Language Encoders

💡 原文英文,约100词,阅读约需1分钟。
📝

内容提要

本研究探讨了CLIP框架下视觉语言模型的社会偏差与预训练特征及下游表现的关系。结果表明,预训练数据集是偏差的重要预测因素,而模型架构的影响较小。内在偏差与下游表现呈正相关,优化模型可能加剧偏差,为减少偏差提供了启示。

🎯

关键要点

  • 本研究探讨了CLIP框架下视觉语言模型的社会偏差与预训练特征及下游表现的关系。
  • 预训练数据集是偏差的重要预测因素。
  • 模型架构对偏差的影响有限。
  • 内在偏差与下游表现之间存在正相关关系。
  • 优化模型可能会无意中放大表征偏差。
  • 研究为减少视觉语言模型的内在偏差提供了重要启示。
➡️

继续阅读